The 2nd Big Data Analysis Contest
IoT推進ラボ・経済産業省
  • 締切: 2016年09月01日
  • 応募:2216件 / 136人
  • 総額¥500,000相当の賞金・副賞

データパティシエが「ナチュラルローソン菓子」の売上予測・新商品開発に挑む


コンテスト趣意
ビッグデータの活用による産業活性化及びビッグデータ分析人材の育成・発掘を目的として、革新的なデータ分析事例・アイデアを広く公募します。

今回のテーマは「流通・小売」
流通・小売業界では、消費者のニーズが多様化する中、データを活用した多様な店舗展開やマーチャンダイジングが重要となっています。
今回、分析の中心となるデータは、ローソンから提供される健康菓子シリーズ「ナチュラルローソン菓子」及びオリジナル菓子シリーズ「おやつごろ。」のPOSデータや商品特性データです。
提供されたデータをもとに、データパティシエと位置付けられたデータサイエンティストが、「ナチュラルローソン菓子」の売上予測並びに売上への影響が強い要素を解明し、データにより得られたアルゴリズムやノウハウを、消費者ニーズにあった商品開発に活用することを目的としています。 




表彰部門
「①売上予測部門」と「②新商品開発部門」の2部門を開催します。どちらか1部門のみでの参加も可能です。

部門①売上予測部門②新商品開発部門
課題予測モデル構築および説明変数の設計売れる商品特性の解明および新商品のアイデアの提示
提出物・予測結果(指定のフォーマット)
・作成したモデルの説明や考察等のレポート
商品特性等から売れる商品の考察や、新しい健康菓子のアイデアをまとめたレポート
利用データ
(両部門共通)
商品データ、店舗データ、販売データ、SNSデータ、食品情報データ、(その他外部データ)
※「データをダウンロード」ボタンをクリックし、遷移先ページからダウンロード
提出方法予測結果は「解析結果を送信」、レポートは「レポートを送信」ボタンをクリックし、遷移先ページからアップロード「レポートを送信」ボタンをクリックし遷移先ページからアップロード
評価・予測精度(RMSLEによる定量評価)
・レポート内容(審査による定性評価)
レポート内容(審査による定性評価)
懸賞/賞金■最高予測精度賞(1名)
賞金10万円+健康・美容家電一式
提供:パナソニック株式会社
■ローソン賞(1名)
からあげクン1年分(相当のクオカード)
提供:株式会社ローソン
■モデリングアイデア賞(1名)
賞金10万円
提供:株式会社NTTドコモ
■データパティシエ賞(1名)
賞金10万円
提供:日本電気株式会社
■副賞
・アクセンチュア・アナリティクス部門の最終面接権(入賞者のうち希望者のみ)
  +書籍「データ・アナリティクス実践講座」(入賞者全員)
  提供:アクセンチュア株式会社
・統計思考院 公開講座 無料受講資格6回分(入賞者から2名)
  提供:大学共同利用機関法人 情報・システム研究機構 統計数理研究所
・プロフェッショナルデータサイエンティスト認定トロフィー(DA Certificated Professional Data Scientist)(入賞者全員)
  提供:株式会社オプトホールディング


①売上予測部門
本部門は、予測モデル構築および説明変数の設計を目的とします。
商品の売上に寄与する変数は数多くありますが、商品のDNAとも言える原材料や栄養成分などの商品特性データなどから、どこまでの精度に迫ることができるのか、その限界に挑戦します。
予測対象は販売数
商品・店舗属性毎の2015年6月~2016年5月の月間販売数等を学習データとして、2016年6月の月間販売数を予測していただきます。
月間販売数は、同一の店舗属性(地域・立地・ナチュラルローソンフラグ)を持つ全ての店舗の商品販売数の合計値を該当店舗数で割った平均値と定義します。



②新商品開発部門
本部門は、売れる商品特性の解明および新しい健康菓子(ナチュラルローソン菓子)のアイデアの提示を目的とします。
新商品を開発するには、商品に対する消費者ニーズを理解し、それに継続的に応えていく必要があります。
データパティシエと位置付けられたデータサイエンティストが、探索的データ分析によって、商品のどういった特性が消費者を魅了しているのかを解き明かし、さらには、データから導かれる示唆を通じて、消費者ニーズにあった新しい健康菓子の提案に挑戦します。

データ
分析用データとして、以下が与えられます。(※項目等の詳細はデータのダウンロードページで確認できます。)

データ種別概要提供元
商品データオリジナル菓子(全47種類)・健康菓子(全26種類)の商品特性情報(栄養成分や原材料、説明文等)株式会社ローソン
店舗データコンテスト用にサンプリングした約1,400店舗。(エリア・立地パターンの店舗属性を含む。店舗名は除く。)株式会社ローソン
売上データ対象菓子の過去12ヶ月分の店舗別(コンテスト用の約1,400店舗が対象)・男女別・年代別の月間販売数データ。株式会社ローソン
SNSデータ健康食品に関連する語句が含まれる投稿の件数推移(ブログ・twitter・掲示板)クチコミ係長(株式会社ホットリンク)
食品情報データ健康志向商品を含む全80種類の菓子の栄養成分や原材料等クミタス(株式会社ウィルモア)

※ここで提供されているデータ以外にも、予測モデルや新商品開発に有用であると思われるデータを、分析者が自由に収集して利用することが可能です。
ただし、第三者の権利を侵害しない、オープンに取得可能なデータのみを使用してください。

①売上予測部門
評価関数
・精度評価は、評価関数「RMSLE(Root Mean Squared Logarithmic Error)」を使用します。
・評価値は0以上の値をとり、精度が高いほど小さな値となります。 



レポート
・レポートは、外部データの利用、説明変数の解釈、変数寄与率の解釈、モデリングのストーリー性、探索的分析、可視化表現等を、厳正な審査により評価します。
・モデリングアイデア賞は、レポート未提出の方は対象にはなりません。
・レポートは複数回応募できますが、最後に提出されたレポートが評価対象となります。

最終順位の決定
1.コンテスト最終日までの評価(暫定評価)は評価用データセットの一部で評価し、コンテスト終了後の評価(最終評価)は評価用データセットの残りの部分で評価します。
 スコアボードはコンテスト終了時に自動的に最終評価に切り替わり、それを元に最終順位を決定します。このため、開催中と終了後では順位が大きく変動する場合もあります。

2.スコアが同値の場合は、早い日時でご応募いただいた参加者を上位とします。

3.コンテスト終了後、入賞候補者には以下を提出していただきます。
 - 予測モデルのソースコード
 - 学習済モデル
 - 解説書(実行環境、実行時間*1、予測結果の再現手順*1、乱数シード*2、特徴量の説明や寄与度*3、モデリング手法、工夫点、得られた示唆等)
   *1 : 前処理部分、学習部分、予測部分それぞれに対して明記
   *2 : Random Forest等の乱数を利用した手法を用いた場合
   *3 : 算出が可能な手法を用いた場合
 - アンケート(参加の動機、費やした時間、ご意見・感想等)

4.再現性検証期間中、以下いずれかに該当する場合は入賞資格を失います。このため、提出前に必ず問題がないことを確認してください。
 - 事務局からの手続き上の連絡・要求に対して指定された期限内に対応しない
 - 参加条件やルールを満たしていない
 - プログラムが動作しない
 - 最終提出した予測値と学習済モデルから出力される予測値が一致しない

5.入賞候補者が入賞資格を失った場合は、スコアが次点の方が繰り上がり、新たな入賞候補となります。全入賞者の確定をもって、それを最終順位とします。

②新商品開発部門
・レポートは、外部データの利用、データの解釈、ストーリー性、探索的分析、可視化表現、アイデア・発想力等を、厳正な審査により評価します。
・レポートは複数回応募できますが、最後に提出されたレポートが評価対象となります。

心構え
・企業課題の達成、社会問題の解決、研究成果の共有等、大前提となる目的に合わせ、実用性を意識したアプローチで臨むこと。

システムの利用
・利用アカウントは1人につき1つまで。ただし、アカウントが1つであればチームでの参加も可能。

情報の取り扱い
・同じチーム以外の参加者と本コンテストの予測に関連するデータ・ソースコードを共有する行為は禁止。

データの利用
・第三者の権利を侵害しない、無償で誰でも手に入るオープンなデータに限り、利用可能。
・構築した予測モデルで新商品の予測ができること。例えば、商品IDや商品名等、商品固有の情報を説明変数として利用することは禁止。

実装方法
・ソースコードは、以下のように、前処理、学習、予測、の3つに分け、それぞれを実行すれば処理が進むように実装すること。
 ①Preprocessing
  提供データを読み込み、データに前処理を施し、モデルに入力が可能な状態でファイル出力するモジュール。get_train_dataやget_test_dataのように、学習用と評価用を分けて、前処理を行う関数を定義してください。
 ②Learning
  ①で作成したファイルを読み込み、モデルを学習するモジュール。学習済みモデルや特徴量、クロスバリデーションの評価結果を出力する関数も定義してください。
 ③Predicting
  ①で作成したテストデータ及び②で作成したモデルを読み込み、予測結果をファイルとして出力するモジュール。

・未来の情報は利用禁止。売上予測部門で分析に利用するデータは、2016年5月末時点で確定している情報のみ使用できます。
2016年7月11日(月) コンテスト開始
2016年9月1日(木) コンテスト終了
2016年9月5日(月) 予測モデルの提出締切 ※売上予測部門で入賞連絡を受け取った方
2016年9月中旬 検収・審査にて入賞者を決定
2016年10月5日(水) 入賞者表彰