背景
近年、ディープラーニングをはじめとするAIを用いたデータ解析技術の発達に伴い、AIを用いて、正確な気象状況の把握や高精度の予測を実現しようという取り組みが本格化してきています。各地点、各高度において、刻一刻と蓄積される膨大な気象データはAIと相性が良く、AIの活用によって、予測精度の向上や今まで難しかった予測の実現が期待されています。
また、気象データをビックデータの一部とし、他のデータと組み合わせて分析することで、流通や農業、金融など、様々な分野における課題解決へ応用する取り組みも始まっています。数ある気象データの中でも、衛星データは、地上観測器の設置が難しい海上や山岳地帯、観測器のない国や地域のデータも一様に取得できる上、ひまわり8号に代表されるように、近年、観測性能が飛躍的に向上していることから、その有効活用が特に期待されているデータの一つです。
現在の気象予測は、物理方程式に基づく気象予測モデルを用いることが一般的なため、衛星雲画像データを用い、画像解析技術によって未来の雲画像を予測する今回のコンペティションは、気象業界にとって非常に革新的なチャレンジです。
以上を踏まえ、本コンペティションでは、これまでとは異なる新たなアプローチ方法で天気予報の可能性にチャレンジしていただき、未来の雲画像を予測するアルゴリズムを募集いたします。
タスク説明
気象衛星ひまわり8号により撮影された過去96時間の日本全域の雲画像と、対応する気象解析データを使って未来の雲の変化を予測し、向こう24時間の雲画像を生成するアルゴリズムを作成していただきます。
雲画像は配布した雲画像と同じ緯度経度の範囲で1時間毎に作成できることが必須要件となりますが、評価のためご提出いただく雲画像は本州付近に範囲を絞った6・12・18・24時間後の雲画像となります。
データは3年分をご提供します。2016年・2017年の2年間を学習期間とし、学習にはこの期間のデータを使用して下さい。
2018年の1年間は評価期間に設定します。評価期間ではおよそ1週間毎にウインドウを50個に分割しており、各ウインドウの頭4日分(96時間分)を入力として、翌1日分(24時間分)を1時間毎に予測します。
提出ファイルは6・12・18・24時間後の予測雲画像とします。具体的な推論対象日時はCSVファイルにまとめましたので、データのダウンロードページより『評価期間の詳細日時情報 (inference_term.csv)』をご参照下さい。
また提出ファイルの領域(=評価領域)は本州付近に絞っていただきます。具体的な範囲は以下の図に示した通り、左上端の座標を(0, 0)として、(130, 40)から縦420ピクセル・横340ピクセルの範囲になります。切り取り方法は、チュートリアルでもご紹介しています。
実際の提出ファイルは、画像ファイルそのものではなく、256階調の画素値を以下のフォーマットでCSV形式で作成し投稿して下さい。
1. 評価対象時刻の予測画像を用意します。具体的な時刻は『評価期間の詳細日時情報 (inference_term.csv)』ファイルの「Evaluation_06hr, Evaluation_12hr, Evaluation_18hr, Evaluation_24hr」カラムを参照して下さい。
2. 評価領域に合わせて切り取った縦420ピクセル・横340ピクセルのデータを、そのままの形で縦方向に日時の古い方から順番に結合して下さい。
3. 0列目に0〜83999番までの通し番号をつけて下さい。
4. ヘッダなしの、84000行・341列のCSVファイルとして出力して下さい。応募用サンプルファイル (sample_submit.csv) もご参照下さい。
提供データ概要
分析用データとして、以下が与えられます。
※ 各データはコンペティション開催中1日に3回だけダウンロードできます。
※ データのダウンロードの際、実際にダウンロードが始まるまで数分の待ち時間がある場合があります。
※ データの詳細については、サイドメニューの「データ詳細」をご参照下さい。
※ ファイルの詳細についてはデータのダウンロードページをご参照下さい。