お知らせ


趣意

現在、新型コロナウイルス感染症(COVID-19)が世界中で猛威を振るい、私たちの暮らしや経済活動に深刻な影響を及ぼしています。感染症対策には、罹患者に関するデータを迅速に収集し公開することが極めて重要です。事実、海外ではECDCなどが、国別の罹患者数や死亡者数などの統計データを一元的に収集し、配信しています。日本国内においても、例えば東京都は最新感染動向をわかりやすく伝えるダッシュボードをいち早く開発し、OSSとして公開するなどの意義のある活動も見受けられます。

しかし、現時点における日本国内のCOVID-19に関する情報は、国や自治体などで配信方針がバラバラであり、テキスト形式やPDF形式、画像形式などの非構造データで配信されているものも多く、一元的・網羅的でマシンリーダブルかつデータ分析可能な状態になっていないのが実情です。また、罹患者数などの統計データだけではなく、罹患者一人一人に関する感染背景や症状など、できるだけ詳細な情報を網羅的に収集し、データ分析が可能な状態で共有することは、今後の感染対策や治療方針の策定に有用であると考えられますが、このようなデータセットは海外でも未だ公開されていません。

そこで、これらの状況を打破するべく「COVID-19チャレンジ」を開催いたします。

まず、フェーズ1として、日本国内のCOVID-19罹患者数と患者間の関係データに関する、マシンリーダブルかつデータ分析可能な最大規模のデータセットの構築を目指します。
続けてフェーズ2では、そのデータセットを用い、様々な統計学的手法によるデータ分析を実施し、感染実態に迫るインサイト抽出を目指します。

本活動における成果は、営利・非営利を問わず自由に利用可能なライセンス形態で公開予定です(詳細は情報公開ポリシーを参照ください)。
本チャレンジに貢献いただいた方は、著者メンバーの一員としてクレジットされます。


データセット構築プロジェクトの進め方

データセット構築に有用な知見、情報源やデータ、データ収集プログラムなどを広く募集します。

①データ
データは以下の2種類のGoogleスプレッドシートを皆で更新していきます。
http://bit.ly/signate_covid-19

データ名データ概要タスクタスク詳細
罹患者データ1行につき1患者のテーブルデータ1:データ整備のご協力 ・都道府県から罹患者が公表されるたび、新たに罹患者の情報を登録していきます。続々と新たな罹患者が公表されるという状況のため、シートに未登録の罹患者が確認されましたら、新たな行への追記をご協力願います。なお、罹患者は一意に表現できるように、罹患者idを設けています。採番の規則等についてはルールをご確認ください。
・ブランクのセル(オレンジ)を自治体のサイト等を参照の上、記入願います。すでに色が消えているセル(無色)は無視して構いません。
・1日の中でご協力いただいた内容を簡単にフォーラムに投稿願います。
・また記入済の内容に気になる点などがあれば、スプレッドシートのコメント機能を使用してコメントください。
2:新規情報の追加 ・シートに存在しない情報として新規カラムを追加したい場合、情報の内容(あるいはデータそのもの)と情報源(URLなど)をフォーラムに投稿願います。
・SIGNATEで精査し、採用された場合、マスターテーブルデータに新規カラムを追加します。
罹患者関係データ1行につき1関係(2項関係)のリレーションデータ1:データ整備のご協力 ・ <罹患者データ>のIDを参照し、関係性や感染都道府県、日時、感染場所、根拠となる情報源などを記載願います。
罹患者トランザクションデータ1行につき1患者1ステータス/アクションのテーブルデータ1:データ整備のご協力  ・<罹患者データ> の「症状・経過」、「行動歴」に非構造テキストとして記載された時系列情報を、1ステータス/アクションごとに分節化を行って記載願います。





▼罹患者データイメージ

②データ情報源やクローラー・スクレイパーのソースコード
 データ取得元として有用なサイトがあれば、フォーラムにてお知らせください。
 また、クローラー・スクレイパーはgithub等リポジトリのURLをフォーラムにてお知らせください。

③その他、データセット構築に関するアドバイス(こういう設計にした方がいいのではないか?など)
 フォーラムに投稿願います。議論の上、採用させていただきます。


マスターデータセットはSIGNATEメンバーが管理します。このデータセットの品質をみんなで高めていきたいと考えていますので、間違いなどがありましたらフォーラムにてお知らせください。本チャレンジに貢献いただいた方は、構築されたデータセットの著者メンバーの一員としてクレジットされます。

※上記にありますよう、作業内容をフォーラムに投稿いただかないとクレジットとしてカウントされないのでご注意願います。

特にありません。データの正しさはみんなで確認してよりよいものにしていきたいと思います。
間違い等ありましたら、フォーラムにてお知らせ願います。
<主催>
●株式会社SIGNATE

※以下の企業・団体様のご協力、応援に心より感謝申し上げます。


<データ・ツール協力>※敬称略
●株式会社ウェザーニューズ
株式会社ウェザーニューズはこの活動を応援しています。また、当社も、ウィルスの活動度と気象に関係性を調べる方向けにデータを公開しておりますので、ぜひご活用ください。
https://weathernews.jp/s/covid19-weather/

観光予報プラットフォーム推進協議会
観光予報プラットフォーム推進協議会はこの活動を応援しています。また、私たちも、「訪日外国人の宿泊者の推移」ダッシュボード等を公開しておりますので、ぜひご覧ください。
・観光予報:https://kankouyohou.com/
・観光予報DS:https://learning-steam-ds.kankouyohou.com/
・経済産業省「未来の教室」:https://www.learning-innovation.go.jp/covid_19/kankouyohou/

●ジャッグジャパン株式会社
ジャッグジャパン株式会社はこの活動を応援しています。また、私たちも、「都道府県別新型コロナウイルス感染者数マップ」を公開しておりますので、ぜひご覧ください。
https://gis.jag-japan.com/covid19jp/

●DataRobot, Inc.
DataRobotはこの活動を応援しており、「DataRobot AutoMLの無料ライセンス提供」を実施しております。ぜひご活用ください。
https://www.datarobot.com/jp/lp/covid-19-response-effort/


<紹介・分析協力>※敬称略
connectome.design株式会社
コネクトーム・デザイン株式会社はSIGNATEの考え方に賛同し、この活動を応援します。多くの技術者に活動を紹介するとともに、解析のお手伝いを致します。
https://www.connectome.design/?p=4147

●株式会社リコー(リコー経済社会研究所)
http://blog.ricoh.co.jp/RISB/technology/post_542.html


<メディア協力>
※敬称略
Ledge.aihttps://ledge.ai/covid-19-challenge/
AINOWhttps://ainow.ai/2020/03/20/192930/

情報公開ポリシー

本チャレンジの成果物は営利・非営利を問わずご利用いただけます。成果物を改変したものも共有いただけますが、下記のライセンスを継承するものとします。

Creative Comons 表示 - 継承 4.0 国際
クリエイティブ・コモンズ・ライセンス


本成果物の利用時には以下を引用願います。また、利用内容の概要とともにこちらまでご利用の旨、ご連絡いただければと存じます。
データ名:SIGNATE COVID-19 Dataset
URL:http://bit.ly/signate_covid-19