お知らせ
2021年12月23日17時をもって、フェーズ1、フェーズ2も含め本チャレンジのデータ更新を停止いたしました(データセットの閲覧は可能です)。ご参加いただきました皆様には、多大なるご尽力をいただき誠にありがとうございました。
COVID-19チャレンジ(フェーズ3)累積罹患者数予測は、ラウンド20をもって終了いたします。なお、(フェーズ1)データ収集・(フェーズ2)分析は今後も継続提供します。
ラウンド01 応募ページ(開催:4/16-4/26 予測:4/27-5/10)
ラウンド02 応募ページ(開催:4/27-5/10 予測:5/11-5/24)
ラウンド03 応募ページ(開催:5/11-5/24 予測:5/25-6/7)
ラウンド04 応募ページ(開催:5/25-6/7 予測:6/8-6/21)
ラウンド05 応募ページ(開催:6/8-6/21 予測:6/22-7/5)
ラウンド06 応募ページ(開催:6/22-7/5 予測:7/6-7/19)
ラウンド07 応募ページ(開催:7/6-7/19 予測:7/20-8/2)
ラウンド08 応募ページ(開催:7/20-8/2 予測:8/3-8/16)
ラウンド09 応募ページ(開催:8/3-8/16 予測:8/17-8/30)
ラウンド10 応募ページ(開催:8/17-8/30 予測:8/31-9/13)
ラウンド11 応募ページ(開催:8/31-9/13 予測:9/14-10/11)
ラウンド12 応募ページ(開催:9/28-10/11 予測:10/12-11/8)
ラウンド13 応募ページ(開催:10/12-11/8 予測:11/9-12/6)
ラウンド14 応募ページ(開催:11/9-12/6 予測:12/7-1/3)
ラウンド15 応募ページ(開催:12/7-1/3 予測:1/4-1/31)
ラウンド16 応募ページ(開催:1/4-1/31 予測:2/1-2/28)
ラウンド17 応募ページ(開催:2/1-2/28 予測:3/1-3/28)
ラウンド18 応募ページ(開催:3/1-3/28 予測:3/29-4/25)
ラウンド19 応募ページ(開催:3/29-4/25, 予測:4/26-5/23)
ラウンド20 応募ページ(開催:4/26-5/23, 予測:5/24-6/20)
趣意
現在、報道等で私たちが日々目にする新型コロナウィルスの罹患者推移は、SIR (Susceptible-Infected-Recovered) モデルに基づいて予測されています。SIRモデルは集団が時間とともに以下の3つの状態を推移していく過程を表現した数理モデルです。
Susceptible:まだ感染していない人々(青)
Infected:感染している人々(緑)
Recovered:回復し免疫獲得した人々、あるいは亡くなった人々(赤)
SIRモデルの詳細は論文・他のサイト(例えばこちらやこちら)をご覧いただければと思いますが、モデルの振る舞いを決めるのは以下の3つのパラメータです。
・β:感染率
・γ:回復率
・N:総人口
実際の感染状況から得られるデータや仮定により、これらのパラメータを検討、モデルのシミュレーションにより罹患者増加の現状や今後の予測を議論することができます。
特に重要な指標として、R0:基本再生産数(basic reproduction number)が挙げられます。
R0=βN/γ
R0は1人の感染者が平均的に感染させる人数を表します。R0が1を超えると感染症の流行が発生し、値が大きい程、爆発的に感染が広がります。
R0は感染流行の収束がどの段階で起こるかにも影響します。モデル上では一度免疫を獲得した集団は他者に感染させないので、人口において(R0-1)/ R0の割合で免疫を獲得できれば1人の感染者が平均1人未満に感染させる状態に落ち着きます。例えば、R0=1.7なら人口の約40%、R0=2.5なら60%が免疫獲得する必要があります。しかし、R0はウィルスの性質や社会構造等に大きく依存するので、精度の高い推定は困難です。
一方で、現状の社会的距離戦略、3密を避けるような行動規制によっても、R0の数値を下げることができます。そのような実態の指標としては、RE:実効再生産数(Effective Reproduction Number)があります。
RE=(1-p)R0<1
通常の平均的な人との接触確率に対し、p削減することによりR0を1未満に抑えようという発想です。
人との接触を7・8割削減しようというメッセージは、このような数理モデルを前提としています。
ただし、SIRモデルには、感染や回復・死亡に関連しそうな因子はパラメータとして「陽」に表現されていません。感染者数増加の推移を説明する新しいモデル(数理モデルではない統計学的手法など)・今後の予測を高い精度で実施可能なモデル、それらのモデルに影響を及ぼす新しい因子については、検討の余地があると考えられます(もちろん、数理モデルも歓迎です。SEIRやその他の派生モデルなど)。
そこで、Phase3におけるチャレンジでは、有用な罹患者数推移予測手法の検討、および予測に有効な特徴の探索を目指します。予測に有用な特徴が必ずしも因果性がある(つまり、説明能力の高い因子、あるいは対策することで罹患者数を減らすことができる因子)わけではありませんが、何かの手がかりになればと考えています。
本チャレンジに貢献いただいた方は、著者メンバーの一員としてクレジットされます。皆様のご協力をいただければ幸いです。
課題
Phase3では国内全体の日毎の累積罹患者数を予測していただきます。
利用するデータはPhase1で構築されたデータ(SIGNATE COVID-2019 Dataset)を前提としますが、それ以外の外部データも自由にご活用ください。
モデリングに際しては、Phase2で得られた知見やダッシュボードもご活用ください。また、協賛企業でご提供いただいている外部データやツールもご利用いただければと存じます。
予測対象期間を2週間毎に設定し、下図のように数ラウンドに分けて継続的に開催する予定です。各ラウンドでは、終了日の2週間先までを予測し、その後発表された実際の累積罹患者数を元に評価を確定します。(ラウンド11以降は予測対象期間を4週間に変更)
このようにモデルの評価は、予測の正確性に基づきますが、精度に影響を与える因子を特定することも同様に重要です。 どのような方法で予測モデルを構築したのか?モデリングにより得られた示唆は何か?を是非、フォーラムにてご共有願います。 COVID-19の収束に向けてご協力いただければ幸いです。
予測状況
投稿頂いた予測結果の日毎のパーセンタイル(25%, 50%, 75%)を可視化してみました。