NTTドコモ 気象データによる鉄道支障予測
株式会社 NTTドコモ
  • 締切: 2014年08月31日
  • 応募:683件 / 48人
  • 1位¥200,000、2位¥100,000、3位¥50,000

NTTドコモの基地局設備などに設置されている環境センサーで観測された気象・環境に関するデータから、鉄道の支障(運転見合わせ、遅延、運休等)を予測するモデルを作成していただきます。

NTTドコモは全国約4,000箇所の観測拠点において、様々な環境データを計測しています。

環境センサーネットワークは、NTTドコモの基地局設備などを活用することにより、従来には無い観測拠点によって構成されています。
気温、降水量、湿度、風向風速等の他、紫外線や花粉のデータも取得されています。

気象・環境は、社会生活やビジネス等に多様な側面から影響を与えており、これらのデータを有効活用することで様々な付加価値を実現することが期待されます。

また、首都圏では鉄道網が発達し、通勤通学を始めとして交通に占める鉄道の重要性は非常に高くなっています。
一方で、災害や機器トラブル、混雑集中などにより、運転見合わせや、運休、遅延等が頻繁に発生しており、時間帯や路線によっては、非常に多数の利用客に影響を与えることも少なくありません。

そこで、リアルタイムに観測される環境センサーネットワークのデータから、鉄道の運行支障発生の可能性を予測し、支障の予防や事前の予測による混雑・混乱の回避などに資すること目的としてコンペを実施します。

データ
予測モデルの説明変数には、環境センサーネットワークのデータを活用します。
提供されるデータは、首都圏の最大219地点で観測された、以下の6種類のデータ及び、落雷のデータです。

 ・気温  (219地点)
 ・湿度  (219地点)
 ・降水量 (176地点)
 ・風速  (200地点)
 ・風向  (200地点)
 ・最大瞬間風速(200地点)

 データの期間は、2012年1月1日から2013年6月30日までの1年半で、
 6種の観測データは、10分毎のデータを提供します。
 落雷のデータは発生毎に記録されています。

 鉄道の運行支障のデータは、JR東日本の首都圏10路線を対象としています。

 ・中央線(快速)[東京~高尾]
 ・京浜東北根岸線
 ・京葉線
 ・内房線
 ・埼京川越線[大崎~川越]
 ・外房線
 ・宇都宮線
 ・山手線
 ・湘南新宿ライン
 ・高崎線

提供データは、2012年1月1日から2012年12月31日までの1年間のデータです。
10分毎に記録されており、各路線毎に支障の有無及び、支障発生時には原因も併せて示されています。
過去1年間の支障履歴と環境センサーネットワークのデータを活用して、モデルを学習し、
2013年1月1日から2013年6月30日までの半年の支障を予測してください。

モデル学習用データ期間:2012年1月1日 00:00 ~ 2012年12月31日 23:50
   検証用データ期間:2013年1月1日 00:00 ~ 2013年 6月30日 23:50

変数の詳細や、データ形式については、「データをダウンロード」ページをご参照ください。


評価関数
・精度評価は、評価関数「AUC」を使用します。
・評価値は0~1までの値をとり、精度が高いほど大きな値となります。
・目的変数は、時間毎の支障の有無(1 or 0)です。


最終順位の決定
1.コンペ最終日までの評価(暫定評価)は評価用データセットの一部で評価し、コンペ終了後の評価(最終評価)は評価用データセットの残りの部分で評価します。※スコアボードはコンペ終了時に自動的に最終評価に切り替わり、その評価値とレポートの評価で最終順位を決定します。

2.スコアが同値の場合は、早い日時でご応募いただいた参加者を上位とします。

・コンペ終了後、入賞候補者には以下を提出していただきます。
 - 予測モデルのソースコード
 - 学習済モデル
 - 解説書(実行環境、実行時間*1、予測結果の再現手順**1、乱数シード**2、特徴量の説明や寄与度*3、モデリング手法、工夫点、得られた示唆等)
   *1 : 前処理部分、学習部分、予測部分それぞれに対して明記
   *2 : Random Forest等の乱数を利用した手法を用いた場合
   *3 : 算出が可能な手法を用いた場合
 - アンケート(参加の動機、費やした時間、ご意見・感想等)

3.再現性検証期間中、以下いずれかに該当する場合は入賞資格を失います。このため、提出前に必ず問題がないことを確認してください。
 - 事務局からの手続き上の連絡・要求に対して指定された期限内に対応しない
 - 参加条件やルールを満たしていない
 - プログラムが動作しない
 - 最終提出した予測値と学習済モデルから出力される予測値が一致しない

4.入賞候補者が入賞資格を失った場合は、スコアが次点の方が繰り上がり、新たな入賞候補となります。全入賞者の確定をもって、それを最終順位とします。

2014年6月20日(金)コンペ開始
2014年8月31日(日)コンペ終了