株式会社オプト レコメンドエンジン作成
株式会社オプト
  • 締切: 2017年10月30日
  • 応募:1038件 / 90人
  • 1位 ¥300,000 2位 ¥200,000 3位 ¥100,000

ユーザーの行動履歴データを元にその後それぞれのユーザーが高い関心度を示す商品を予測していただきます。

服や家電製品等を購入したり、ホテルやレストランを予約したりするなどの購買行動は我々の日常生活の大半を占めます。しかし世の中には多種多様な商品が存在し、その中で自分が求めている商品を選ぶことは困難を極める場合が多いです。

このような状況で商品を売る側にとって、ユーザーに対して常に最適な商品を推薦することは売り上げを改善するうえで非常に重要な問題となります。

今回はこの問題を解決すべく、ユーザーの過去の行動履歴データからその後高い関心度を示す(購買する、広告をクリックするなど)商品を予測するアルゴリズムを作成することに挑戦していただきます。

※ルールと評価方法をよく確認の上、分析を行っていただきますようお願いします。




データ概要
データとして与えられるのは人材、旅行、不動産、アパレルの計4業種におけるユーザーの行動履歴データです。ユーザーが商品に対してとる行動はcv(コンバージョンの略で商品を購入すること)、cl(クリックの略で広告にクリックすること)、pd(商品の詳細ページを閲覧すること)、ca(商品をカートに入れること)の4種類となります。学習データの期間は4/1~4/30の一か月間で、評価データの期間(予測の対象期間)は5/1~5/7の一週間です。予測対象ユーザーは4月中に行動履歴の存在するユーザーとなります。

変数の詳細やデータ形式については、「データをダウンロード」ページをご参照ください。


評価関数
予測精度の評価は、nDCG(normalized discounted cumulative gain)を使用します。この値は、モデルの性能が良いほど大きくなり、1に近くなります。関連度(relevance)はcv(コンバージョン)を3、cl(広告をクリック)を2、pd(商品ページ閲覧)を1、それ以外は0とします。ただしコンバージョンは広告経由のみ評価対象とします。クエリごとの最大推薦数kは22とします。予測値の出力形式についてはダウンロードページの応募用サンプルファイルをご参照ください。各クエリに対して同じ商品を複数回推薦することは可能ですがその場合、重複は下のランクから全て削除した後に評価が行われます。また、test.tsvに記載されているすべてのユーザーに対して予測を行ってください。


最終順位の決定
1.コンテスト期間終了後、開催期間中とは異なる正解データセットでの評価値で最終スコアを算出します。

2.評価指標が、タイ(同値)の場合は、早い日時でご応募いただいた参加者を上位とします。

3.入賞候補者には、順位確定のため、下記の情報を提出していただきます。
  (ア) 予測モデルのソースコード及び再現の為の手順書(前処理部分、学習部分、予測部分が分かるよう明記
  (イ) 実行環境(OSのバージョン、使用ソフトウェア及び解析手法)
  (ウ) 乱数を利用したモデリングの場合の乱数シード(再現性確保のため、固定シードでのモデル推定にご協力下さい)
  (エ) 各説明変数の予測モデルへの寄与度(寄与度の算出が可能な手法を用いた場合)
  (オ) データの解釈、工夫点、モデリングから得られる示唆等

4.再現性検証期間中、入方候補者及び、その提出モデルが下記いずれかに該当する場合は懸賞の獲得資格を失います。
  (ア) 事務局からの手続き上の連絡・要求に対して指定された期限内に対応しない
  (イ) 参加条件やルールを満たしていない
  (ウ) モデルの予測結果を再現できない

システムの利用
・コンテスト参加者は1人につき1アカウントまでです。
・チームでの参加の場合は、代表者のアカウントのみでの投稿が可能です。
 - チームで参加される方は以下手続きをお願いします。

  1.チームメンバー全員がDeepAnalyticsへユーザ登録
  2.チーム代表者は自身と全チームメンバーのemailアドレスをお問い合わせフォームより送信
 - 代表者以外の方が予測結果ファイルを投稿するのは禁止とさせていただきます。

情報の取り扱い
・コンテスト参加者が同じチーム以外の参加者と本コンテストの予測に関連するデータ・ソースコードを共有する行為は禁止です。

データの利用
・配布する学習データ以外のデータを用いてモデルを学習することは禁止です。

実装方法
・モデルの学習に利用するツールは、オープン且つ無料なもの(python, R 等)に限定します。
・学習、予測ロジックがすべての業種で共通するのは問題ありませんが、ある1つの業種について学習と予測を行う際に、
   他の業種のデータを使わないと動かないようなモデリングを行うことは禁止とします。
・提案した方法が一般的な環境において追加費用負担を伴わず、再現及び継続使用可能であることを保証する必要があります。
  同じフォーマットで、異なるデータを入力した場合にも同様なロジックで予測できなければなりません。
  例えば、根拠無く局所的に予測値を修正することは禁止となります。また、ユーザーIDや商品IDの文字の並び方などを学習させ、予測に利用することも
  禁止となります。
  (基準について不安がある場合は、事務局までお問い合わせください)
2017年8月28日(月) コンペ開始
2017年10月30日(月) コンペ終了
2017年11月6日(月) 予測モデル等の提出締切 (※入賞候補の連絡を受け取った方)