株式会社ブランカ レシート読み取りエンジン作成
株式会社ブランカ
  • 締切: 2018年04月20日
  • 応募:266件 / 19人
  • 1位 ¥1,200,000 2位 ¥600,000 3位 ¥300,000

コンペティション内容
ブランカは今年で10期目を迎える、コンビニやメーカーの販促プロモーションをお手伝いする会社です。
皆様が日々生活されている中で、ブランカが関わっているプロモーションは1日に1回は目撃できるほど、多数の上位メーカー様とのお取引があります。

販促プロモーションの中でも、対象となる商品を購入して参加できるマストバイキャンペーンを得意としており、以前はシリアルIDやQRコードを利用されたキャンペーンが多かったですが、最近はレシートの画像を撮影し、応募するレシート認証キャンペーンが主なキャンペーン手法となっております。
ブランカはこのレシート認証キャンペーンのビジネスモデル特許を保有し、先駆者であります。

このレシート認証により、様々なキャンペーン条件に対応できるようになりました。
しかし、現状のOCR技術には限界はあり、認証できないレシートは目視確認になり、その数は膨大であります。

本コンテストでは、今、販促キャンペーンで一番支持されているツールである【レシパシャ】の大幅改良のお手伝いをして頂きます。
おなたのお力によって、最も支持されているキャンペーン販促ツールを改良し、多くの方に利用して頂きませんか?


データ内容
データとして与えられるのはレシート画像データそれに対応したメタデータキャンペーン対象商品データです。メタデータについては「レシート種別」、「店舗住所(都道府県)」、「電話番号」、「購入年月日時」、「商品情報」、「合計金額」、「T-ポイントカード番号」、「レジ番号」、「責任番号」の9項目の情報が与えられます。「商品情報」についてはキャンペーン対象商品が存在する場合のみその記載があります。またレシートには新・旧が存在し、「新・旧フラグ」も合わせて与えられます。新と旧は「レジ番号」と「責任番号」の位置に違いがあります(下図参照)。それぞれのデータの詳細についてはダウンロードページをご覧ください。


読み取る項目(目的変数)について
レシート画像から読み取っていただく項目は以下の通りです。下図もご参照ください。
(1)レシート種別
  レシートの種類。「ファミマ!!」、「ファミリマート」、「サークルK」、「サンクス」の4種類。
(2)店舗住所(都道府県)
  レシートを取り扱っている店舗の都道府県。
(3)店舗電話番号
  レシートを取り扱っている店舗の電話番号。
(4)商品購入年月日時
  商品を購入した年月日時。
(5)購入した商品情報(キャンペーン対象のみ)
  購入した商品のうち、キャンペーン対象となっている商品の商品名、単価、値引き値(下図参照)、個数。
(6)購入した商品の種類数
  キャンペーン対象外を含む、購入した商品の種類数。
(7)合計金額
  購入した商品の合計金額(値引きがあれば値引き後の合計金額)。
(8)T-ポイントカード番号
  T-ポイントカードを利用した場合に記載されるT-ポイントカード番号。一部伏字となっている。
(9)レジ番号
  レシートを取り扱ったレジ番号
(10)責任番号
  レシートを取り扱った責任番号


評価関数
予測精度の評価は「Accuacy」を用いて行います(下図参照)。この値はモデルの性能がよいほど大きくなり、1に近くなります。評価対象となる項目はそれぞれ「レシート種別」、「店舗住所(都道府県)」、「店舗電話番号」、「商品購入年月日時」、「購入した商品情報(キャンペーン対象のみ)」、「購入した商品の種類数」、「合計金額」、「T-ポイントカード番号」、「レジ番号」、「責任番号」の10種類です。各項目について、「購入した商品情報(キャンペーン対象のみ)」以外は文字列が完全に一致したときに正解とし、それ以外は不正解とします。「購入した商品情報(キャンペーン対象のみ)」については(商品名、定価、値引き値、個数)それぞれについて同様に評価します。以上を基準とし、各項目について「Accuracy」を計算し、それらの平均値を最終的な評価値とします。




最終順位の決定
1.コンペ期間終了時には、開催期間中とは異なる正解データセットでの評価値で最終評順位を決定し、スコアボードに反映します。

2.評価指標が、タイ(同値)の場合は、早い日時でご応募いただいた参加者を上位とします。

3.入賞候補者には、順位確定のために、下記の情報を提出していただきます。
  (ア) 予測モデルのソースコード
  (イ) 予測結果の出力に用いた学習済モデル
  (ウ) 予測結果の再現の為の手順書(前処理部分、学習部分、予測部分が分かるよう明記)
  (エ) 実行環境(OSのバージョン、使用ソフトウェア及び解析手法)
  (オ) 乱数シード(Random Forest等の乱数を利用した手法の場合)
  (カ) 各説明変数の予測モデルへの寄与度(寄与度の算出が可能な手法を用いた場合)
  (キ) データの解釈、工夫点、モデリングから得られる示唆等

4.再現性検証期間中、入賞候補者及び、その提出モデルが下記いずれかに該当する場合は懸賞の獲得資格を失います。
  (ア) 事務局からの手続き上の連絡・要求に対して指定された期限内に対応しない
  (イ) 参加条件やルールを満たしていない
  (ウ) モデルの予測結果を再現できない
  (エ) 新しい画像に対して予測できない

システムの利用
・コンペ参加者は1人につき1アカウントまでです。
・チームでの参加の場合は代表者のアカウントでのみ投稿可能です。
・チームで参加される方は以下手続きをお願いします。
  1.チームメンバー全員がDeepAnalyticsへユーザ登録
  2.チーム代表者は自身と全チームメンバーのemailアドレスをお問い合わせフォームより送信
・代表者以外の方が結果ファイルを投稿することは禁止とします。

情報の取り扱い
・コンペ参加者が同じチーム以外の参加者と本コンテストの予測に関連するデータ・ソースコードを共有する行為は禁止です。

データの利用
・評価用画像データを目で見て各項目を手入力して結果を投稿することは禁止とします。
・提供データ以外のデータ利用について
 - オープンソース(ソースが明確で、誰でもアクセスでき、かつ商用ではない) のデータは使用可とします。
  利用する際はソースをソースコード等において明記してください。
・学習済みモデルとライブラリについて
 - オープンソース(ソースが明確で、誰でもアクセスでき、かつ商用ではない) のライブラリ(tensorflow, chainer, keras, etc)や
  学習済みモデルは使用可とします。使用する際はソースをソースコード等において明記してください。
2017年1月19日(金) コンペ開始
2017年4月20日(金) コンペ終了
2017年4月24日(火) 予測モデルなどの提出締切(※入賞候補通知を受け取った方のみ)