背景・目的
近年、世界ではエビデンスに基づく医療(Evidence-Based Medicine; EBM)の実施が求められており、その根拠となる学術論文のシステマティック・レビュー(Systematic Review; SR)の重要性が高まっています。
システマティック・レビューとは、ライフサイエンス、特に医学分野において浸透している研究方法で、特定の研究テーマに対する文献をくまなく調査し、各研究データのバイアスを評価しながら、体系的に同質の研究データを収集・解析する研究手法のことを指します。
通常、システマティックレビューは以下のようなプロセスに沿って進められます。初期のステップとしては、網羅的かつ系統的に論文を検索・収集し、その中から対象の研究テーマに該当する論文を「選別」する作業が必要となります。また、様々な医学論文のデータベースを横断的に検索する上では、各データベースの特徴や機能を理解したうえで検索式を設定したり、あるいは既存の検索フィルタで選別が不十分な場合は人手による取捨選択を行うなど、多くの時間と労力が必要とされます。
▼一般的なSRの作業フロー
(1)研究テーマの決定
(2)関連論文の検索、収集、選別
(3)研究データの抽出、妥当性の評価
(4)データの要約
(5)(可能であれば)メタアナリシスによる統計学的解析
(6)結果の解釈、結論
そこで本コンペティションでは、システマティックレビューの効率化・省力化を目指し、網羅的に収集された論文の中から目的の論文を「選別」するための機械学習アルゴリズムの構築にチャレンジして頂きます。
タスク説明
本コンペティションでは、論文のタイトルおよび抄録のテキストデータを用いて、システマティックレビューの対象となる文献か否か(2値)を判定するアルゴリズムの作成にチャレンジして頂きます。
※コンペティションで使用するデータセットは、「診断精度研究」と呼ばれる学術分野において、当該分野の複数の研究者の方によって実施されたレビュー結果を元に作成しております。
※データセットには、診断精度研究「以外」も含めた網羅的な文献データが含まれており、その中から診断精度研究に該当する文献(システマティックレビューの対象となる文献)を判定して頂くタスクとなります。
※ラベル判定時は『情報不足により正しい判定を行うためには追加情報を要する』と判断された論文はjudgement=1に振り分けるという基準を設けています。そのため、judgement=1の論文の中には実際には診断精度研究に該当しない論文が含まれている可能性がございます。
※その他、データ形式などの詳細については、「データ」ページをご参照下さい。
データに関する注意事項
・各論文データには、「文字化け」や「欠損値」が含まれる場合がございます。
・「タイトルは異なるが、実際には同一の論文である」といった論文のペアが含まれる可能性があります。本コンペティションでは、これらを別の論文であるとして評価を実施することとします。
・一部のデータにおいて、ラベル判定結果に関する誤りが発見されました。こちらのディスカッションページをご確認の上、必要に応じて、各自で修正ください。
元コンペの成果物
元コンペの成果物(入賞モデルのソースコード等)は、こちらにアップされていますので、参考にしてください。