バイエル薬品 医薬情報テキストマイニング
バイエル薬品株式会社
  • 締切: 2017年07月31日
  • 応募:1759件 / 127人
  • 1位¥600,000、2位¥300,000、3位¥100,000
第3回Grants4Apps Tokyoの課題は「メディカル・コーディング」
医療情報のテキストマイニング アルゴリズムの作成にチャレンジ


製薬企業には、医薬品の開発から市販後に至るまで、その医薬品を使用することによりどのような症状がどのような頻度・程度で現れるかなど、有効性や安全性に関するさまざまな情報を収集し、報告する義務があります。これらの情報を行政当局に報告するためには、当局から指定された特定の辞書を使って数値化しなければなりません。

例えば、複数の患者さんが「腹痛」を訴えた場合、その状態は、「お腹が痛い」、「なんだかお腹がチクチクする」、「夜、腹がひどく痛い感じ」など、さまざまな言葉で表現されます。これらは医学的には同じ概念、すなわち「腹痛」となりますが、文字により報告されたままの状態では、同じ概念として集計することができません。そこで、これらの情報を同じ概念として集計できるよう数値化する作業が必要になります。この作業が「メディカル・コーディング」と呼ばれています。

メディカル・コーディングとは、行政当局により指定された辞書のなかから、報告された患者さんの状態を最も反映する用語を選択する作業です。選択された用語にはコードが付与されており、そのコードを用いて集計することによって、上記の例では、最終的に「腹痛3件」という集計結果にまとめることができるようになります。

バイエル薬品では、治験結果や安全性報告を分析するための用語統一作業「メディカル・コーディング」を自動化することを目的とし、日本語の医療用語を分析する人工知能やアナリティクス(分析方法)を活用した予測モデルを募集します。

現在、人の手で行われているこの作業を自動で行うアルゴリズムの作成に挑戦してみませんか。デジタルヘルスのイノベーターを支援するGrants4Apps Tokyoへのご応募をお待ちしています。

※本コンペへの応募および報奨金獲得にあたっては、利用規約その他の契約条件にご同意いただくことが必要となります。

評価関数
・精度評価は、評価関数「MAP(Mean Average Precision)」を使用します。
・予測順序が早い段階で正解するほど、高い精度となります。
・今回の目的変数は、報告された患者さんの状態を表す文章(下記表の左)に対し適切な用語(下記表の右)の候補3個です。
・適切な用語がない文章については「無し」と予測してください。




報告された患者さんの状態を表す文章予測単語1予測単語2予測単語3
お腹が痛い腹痛腹部炎症胃腸炎
なんだかお腹がチクチクする無し腹痛お腹痛い
夜、腹がひどく痛い感じ盲腸無し腹痛


上記のように予測した場合、分析結果の提出フォーマットは下記のような形式でお願いします。
応募ファイルはtsv形式で、文字コードはutf-8です。
詳しくはダウンロードページをご参照ください。





報告された患者さんの状態を表す文章予測単語
予測単語1お腹が痛い腹痛
予測単語2お腹が痛い腹部炎症
予測単語3お腹が痛い胃腸炎
予測単語1なんだかお腹がチクチクする無し
予測単語2なんだかお腹がチクチクする腹痛
予測単語3なんだかお腹がチクチクするお腹痛い
予測単語1夜、腹がひどく痛い感じ盲腸
予測単語2夜、腹がひどく痛い感じ無し
予測単語3夜、腹がひどく痛い感じ腹痛


最終順位の決定
1.コンペ最終日までの評価(暫定評価)は評価用データセットの一部で評価し、コンペ終了後の評価(最終評価)は評価用データセットの残りの部分で評価します。※スコアボードはコンペ終了時に自動的に最終評価に切り替わり、それを元に最終順位を決定します。このため、開催中と終了後では順位が大きく変動する場合もあります。

2.スコアが同値の場合は、早い日時でご応募いただいた参加者を上位とします。

・コンペ終了後、入賞候補者には以下を提出していただきます。
 - 予測モデルのソースコード
 - 学習済モデル
 - 解説書(実行環境、実行時間*1、予測結果の再現手順**1、乱数シード**2、特徴量の説明や寄与度*3、モデリング手法、工夫点、得られた示唆等)
   *1 : 前処理部分、学習部分、予測部分それぞれに対して明記
   *2 : Random Forest等の乱数を利用した手法を用いた場合
   *3 : 算出が可能な手法を用いた場合
 - アンケート(参加の動機、費やした時間、ご意見・感想等)

3.再現性検証期間中、以下いずれかに該当する場合は入賞資格を失います。このため、提出前に必ず問題がないことを確認してください。
 - 事務局からの手続き上の連絡・要求に対して指定された期限内に対応しない
 - 参加条件やルールを満たしていない
 - プログラムが動作しない
 - 最終提出した予測値と学習済モデルから出力される予測値が一致しない

4.入賞候補者が入賞資格を失った場合は、スコアが次点の方が繰り上がり、新たな入賞候補となります。全入賞者の確定をもって、それを最終順位とします。

心構え
・企業課題の達成、社会問題の解決、研究成果の共有等、大前提となる目的に合わせ、実用性を意識したアプローチで臨むこと。

システムの利用
・利用アカウントは1人につき1つまで。ただし、アカウントが1つであればチームでの参加も可能。

情報の取り扱い
・同じチーム以外の参加者と本コンペの予測に関連するデータ・ソースコードを共有する行為は禁止。

データの利用
・第三者の権利を侵害しない、無償で誰でも手に入るオープンなデータに限り、利用可能。

実装方法
・モデルの学習に使用可能な言語は「python」「R」「Java」「C」「C++」「Scala」「Go」「Julia」「C#」「D」です。
・ソースコードは、以下のように、前処理、学習、予測、の3つに分け、それぞれを実行すれば処理が進むように実装すること。
 ①Preprocessing
  提供データを読み込み、データに前処理を施し、モデルに入力が可能な状態でファイル出力するモジュール。get_train_dataやget_test_dataのように、学習用と評価用を分けて、前処理を行う関数を定義してください。
 ②Learning
  ①で作成したファイルを読み込み、モデルを学習するモジュール。学習済みモデルや特徴量、クロスバリデーションの評価結果を出力する関数も定義してください。
 ③Predicting
  ①で作成したテストデータ及び②で作成したモデルを読み込み、予測結果をファイルとして出力するモジュール。
2017年4月26日(水)コンペ開始
2017年7月31日(月)コンペ終了
2017年8月7日(月)予測モデル等の提出締切(※入賞候補の連絡を受け取った方)
2017年8月中旬(予定)検収・審査にて入賞者を決定