Sansan株式会社 名刺の項目予測
Sansan株式会社
  • 締切: 2016年09月30日
  • 応募:634件 / 49人
  • 1位 ¥300,000 2位 ¥200,000 3位 ¥100,000

名刺に書かれている項目を推定して、自動でラベリングできるアルゴリズムを作成してください。

さて、今回のテーマは「名刺」です。

Sansanは、ビジネスの出会いを資産に変え働き方を革新することを目指し、
「出会い」の価値を最大化する企業向けクラウド名刺管理サービスを提供しています。
その根幹となるのが、スキャンした名刺をデータ化するオペレーションシステムにあたります。

オペレーションシステムでは、セキュアかつ効率的な入力を実現するために、出来る限り名刺を
細かく切片化して作業を行っています。

名刺に記載されている項目を推定することは、OCRの技術でも行うこと
ができるのではないかと想像される方も多いでしょう。
しかし、OCRを利用して100%正確にレイアウトを解析し文字を読み取り、
項目を推定するにはまだまだ課題があるのが現状です。

セキュアな環境を構築するべく、自動で項目を推定しラベリングできる
そんなアルゴリズム作成に挑んでください。
※本コンテストで扱う名刺画像に記載されている内容は実在の団体・個人とは一切関係ございません。




データ概要
項目領域の表現の仕方:
領域は長方形で、左上の座標と右下の座標を指定することで表現します(左図を参照)。お渡しするデータはこの表現を踏襲しております。


評価関数
予測する変数は画像の内容を表すクラスであり、9種類のクラスの中から適切なクラスを付与していただきます。
9種類のクラスはそれぞれ、会社名、名前、役職、住所(郵便番号を含む)、電話番号、ファックス番号、携帯番号、E-mailアドレス、HPのURLです。

応募ファイルの形式はcsv(カンマ区切り)のヘッダーなしファイルです。
1カラム目は画像id、2~10カラム目に当該画像が各クラスに分類される確率を実数で記述します。
※1つの画像に複数のクラスが存在する場合があるので、2~10カラムの値をすべて足しても必ずしも1になるとは限りません。

評価は"Mean Absolute Error"(平均絶対誤差)を使って行います。
この関数は大きな値ほど推定精度の悪さを表しますので、値の小さい予測を提出した参加者様を上位とします。


 

最終順位の決定
1. 評価指標が、タイ(同値)の場合は早い日時でご応募いただいた参加者を上位とします。

2. コンテスト期間終了後、開催期間中とは異なる正解データでの評価値で順位が決定します。

3. 順位確定の際に下記の情報を提出していただきます。
  (ア) 予測モデルのソースコード及び再現の為の手順書
  (イ) 実行環境(OSのバージョン、使用ソフトウェア及び解析手法)
  (ウ) 乱数を利用したモデリングの場合の乱数シード
    (再現性確保のため、固定シードでのモデル推定にご協力下さい)

4. 再現性検証期間中、報奨金獲得対象者及び、その提出モデルが下記いずれかに該当する場合は報奨金獲得資格を失います。
  (ア) 事務局からの手続き上の連絡・要求に対して指定された期限内に対応しない
  (イ) モデルの予測結果を再現できない
  (ウ) 汎用的なモデリングとなっていない

システムの利用
・コンペ参加者は一人につき1アカウントまでです。
・応募は1参加者あたり1日に5度までを上限とします。

情報の取り扱い
・コンペ参加者が他参加者と本コンペの予測に関連するデータ・ソースコードを共有することは禁止です。
 ただし、ソースコードについては、公のものとして全体に公開する場合はその限りではありません。

データの利用
・配布する学習データ以外のデータを用いてモデルを学習することは禁止と致します。
・学習済みのモデルはオープンソースならば使ってよいものとします。
・手動でラベル付けした結果を提出することは反則行為とみなします。
・学習データのラベルを書き換えてモデルを学習するのは禁止します。
・学習データの位置情報を手動で書き換えるのは禁止します。
2016/8/8~2016/9/30
※開催日を8/8に変更いたしました。