お知らせ
2021年12月23日17時をもって、本チャレンジのデータ更新を停止いたしました(データセットの閲覧は可能です)。ご参加いただきました皆様には、多大なるご尽力をいただき誠にありがとうございました。
コンペティション自体は2020年12月31日を持って終了扱いとなりますが、COVID-19チャレンジのサイト(データ収集・分析)は今後も継続提供します。
趣意
現在、新型コロナウイルス感染症(COVID-19)が世界中で猛威を振るい、私たちの暮らしや経済活動に深刻な影響を及ぼしています。感染症対策には、罹患者に関するデータを迅速に収集し公開することが極めて重要です。
現時点における日本国内のCOVID-19に関する情報は、国や自治体などで配信方針がバラバラであり、テキスト形式やPDF形式、画像形式などの非構造データで配信されているものも多く、一元的・網羅的でマシンリーダブルかつデータ分析可能な状態になっていないのが実情です。また、罹患者数などの統計データだけではなく、罹患者一人一人に関する感染背景や症状など、できるだけ詳細な情報を網羅的に収集し、データ分析が可能な状態で共有することは、爆発的感染の抑止対策に有用であると考えられます。
しかしながら、医療システムの崩壊を避けるべく厚生労働省や自治体、専門家の方々が日々、私たちのために尽力いただいている中、しかも、過去に例を見ない感染症対応の渦中に最適な情報配信方式をデザインし実行することは、現実問題として非常に難しいのではないでしょうか?
平素、SIGNATEでは、AI・データサイエンスの知見や技術を持つ多数の方々にご登録いただき、技術課題にチャレンジいただいております。そこで、市民科学としてデータ分析の力でCOVID-19の収束に少しで役に立つ活動ができればと考え「COVID-19チャレンジ」を企画しました。データの収集・分析を通じて、COVID-19の実態把握や気づきを得ること、みんなで自分の行動が世の中を変えることを実感できれば理想的です。本プロジェクトにおいて、どこまで有用なインサイトが得られるかは未知ですが、活動を通じて今後のパンデミック対策に有用なデータの持ち方やあるべき配信フォーマットの議論につながればと考えます。
まず、フェーズ1として、日本国内のCOVID-19罹患者数と患者間の関係データに関する、マシンリーダブルかつデータ分析可能な最大規模のデータセットの構築を目指します。
続けてフェーズ2では、そのデータセットを用い、様々な統計学的手法によるデータ分析を実施し、感染実態に迫るインサイト抽出を目指します。
本活動における成果は、営利・非営利を問わず自由に利用可能なライセンス形態で公開予定です(詳細は情報公開ポリシーを参照ください)。本チャレンジに貢献いただいた方は、著者メンバーの一員としてクレジットされます。
皆様のご協力をいただければ幸いです。
COVID-19 Challenge 総合サイトデータセット構築プロジェクトの進め方
データセット構築に有用な知見、情報源やデータ、データ収集プログラムなどを広く募集します。
①概要
②データ
データは以下のフォルダ配下にあるGoogleスプレッドシートを皆で更新していきます。
https://bit.ly/signate_covid-19_dataset
③データ情報源やクローラー・スクレイパーのソースコード
データ取得元として有用なサイトがあれば、フォーラムにてお知らせください。
また、クローラー・スクレイパーはgithub等リポジトリのURLをフォーラムにてお知らせください。
④その他、データセット構築に関するアドバイス(こういう設計にした方がいいのではないか?など)
フォーラムに投稿願います。議論の上、採用させていただきます。
マスターデータセットはSIGNATEメンバーが管理します。このデータセットの品質をみんなで高めていきたいと考えていますので、間違いなどがありましたらフォーラムにてお知らせください。本チャレンジに貢献いただいた方は、構築されたデータセットの著者メンバーの一員としてクレジットされます。
※上記にありますよう、作業内容をフォーラムに投稿いただかないとクレジットとしてカウントされないのでご注意願います。