NTTドコモ 停電予測
株式会社 NTTドコモ
  • 締切: 2014年10月31日
  • 応募:460件 / 20人
  • 総額¥350,000

※本コンペは、8月31日まで開催のコンペ「気象データによる鉄道支障予測」
に続く、気象データ活用コンペ第2弾です。

NTTドコモの基地局設備などに設置されている
環境センサーで観測された
気象・環境に関するデータから、
東京電力管内での停電の発生状況を予測するモデルを
作成していただきます。




NTTドコモは全国約4,000箇所の観測拠点において、
様々な環境データを計測しています。

環境センサーネットワークは、NTTドコモの基地局設備などを活用することにより、
従来には無い観測拠点によって構成されています。
気温、降水量、湿度、風向風速の他、紫外線や花粉などのデータも取得されています。

気象・環境は、社会生活やビジネス等に多様な側面から影響を与えており、
これらのデータを有効活用することで様々な付加価値を実現することが期待されます。

また、現代の生活においては、エネルギー源としての電力の重要度は非常に高く、
一旦、停電が発生すると、社会生活に大きな影響を与えます。

現在の日本では、諸外国に比べ電力供給は非常に安定していると言われており、
停電の回数も少なくなっています。
しかし、停電の頻度が少ないことにより、
社会インフラ・各家庭等でも「停電は無いもの」「あってもすぐに復旧する」として、
停電用の備えが十分でないという指摘も存在します。
ひとたび、停電が発生すれば、交通信号等の社会インフラが利用できなくなる、
病院等の重要インフラへの影響、一般世帯での灯火・空調に対するエネルギー源の喪失など、
様々な場所、状況において混乱がおきることが予測されます。

そこで、本コンペでは、リアルタイムに観測される環境センサーネットワークのデータから、
各都道府県での停電の発生可能性を予測し、
事前の注意情報の開示により、事前の物資確保、補助電源の用意、ライフラインの確保、
停電時の対応体制の準備などによる混乱の回避に資することを目的としてコンペを実施します。 


データ
 予測モデルの説明変数には、環境センサーネットワークのデータを活用します。
 提供されるデータは、首都圏の最大219地点で観測された、以下の6種類のデータ及び、落雷のデータです。

 ・気温  (219地点)
 ・湿度  (219地点)
 ・降水量 (176地点)
 ・風速  (200地点)
 ・風向  (200地点)
 ・最大瞬間風速(200地点)

 データの期間は、2012年1月1日から2013年6月30日までの1年半で、
 6種の観測データは、10分毎のデータを提供します。
 落雷のデータは発生毎に記録されています。

 停電発生のデータは、東京電力管内の1都8県を対象としています。

 ・茨城県
 ・栃木県
 ・群馬県
 ・埼玉県
 ・千葉県
 ・東京都
 ・神奈川県
 ・山梨県
 ・静岡県

提供データは、2012年1月1日から2012年12月31日までの1年間のデータです。
10分毎に記録されており、各都道府県毎に停電の有無が示されています。
過去1年間の停電履歴と環境センサーネットワークのデータを活用して、モデルを学習し、
2013年1月1日から2013年6月30日までの半年の各都道府県での停電発生を予測してください。

モデル学習用データ期間:2012年1月1日 00:00 ~ 2012年12月31日 23:50
   検証用データ期間:2013年1月1日 00:00 ~ 2013年 6月30日 23:50

 
変数の詳細や、データ形式については、「データをダウンロード」ページをご参照ください。

評価関数
予測モデルでは、2013年1月1日0時より2013年6月30日23時50分までの期間で
10分毎の停電発生を予測していただきます。
予測する変数は、対象とする1都8県(上記データ概要参照)の各都道府県毎にその時刻になんらかの停電が発生しているか否かを表す変数とします。

各都道府県毎に個別の予測を行ってください。
停電の「なし/あり」を0/1の整数で予測してください。


応募ファイルの形式はcsv(カンマ区切り)のヘッダー無しファイルです。
対象期間中の10分刻みのタイムスタンプをインデックスとし(yyyy-mm-dd HH:MM:SS)
2~10カラム目に予測値を整数で記述します。
 
評価は9つの予測変数に対するBalanced Accuracyの平均値を使って行い、
値の大きい予測を提出した参加者様を上位とします。


Ballanced Accuracyは、判別問題のモデルを評価するための指標です。
より大きな数値であるほうが良いモデルとされます。


 

最終順位の決定
評価指標が、タイ(同値)の場合は、より日時が早い応募を行った参加者を上位とします。

開催期間中のモデル評価は、正解データの一部を用いて行われます。
コンペ期間が終了した際の評価においては、全ての正解データで評価が行われます。

※順位確定の際に以下の情報を提出いただくことを想定しています。
 モデリングの際にご留意ください。

 ・各説明変数の予測モデルへの寄与度
 ・RandomForest等の乱数を利用したモデリングの場合、乱数のシード
  (再現性確保のため、固定シードでのモデル推定を推奨します。)

システムの利用
・応募は1参加者あたり1日に3度までとします。
2014/8/29~2014/10/31