2021年11月14日、Systematic Review Work Shop-Peer Support Group(以下、SRWS-PSG)主催「医学論文の自動仕分けチャレンジ」コンペティションの表彰式が開催されました。当日は、上位入賞者として1位から3位までを表彰。上位2名による解法のプレゼンテーションが行われ、独自の工夫点を発表。また、解法プレゼンテーションの終了後には、質疑応答も実施。オンライン開催ということもあり、気軽に多くの方が参加し、プレゼンターの有意義な発表に耳を傾けていました。 式の司会進行を務めたのは、主催者であるSRWS-PSGの宋 龍平氏。宋氏から紹介を受けた、SRWS-PSG片岡裕貴氏の主催者代表挨拶で表彰式は幕を開けました。 ※Systematic Review Work Shop-Peer Support Group (SRWS-PSG)は、現在はScientific Research Works Peer Support Group (SRWS-PSG)へ組織名称を変更しています。
▼動画はコチラ▼
主催者あいさつ

SRWS-PSG 片岡 裕貴氏 「本日は、お忙しい中お集まりいただきまして、誠にありがとうございます。私からは、簡単に今回のコンペティション開催の背景をご説明できればと思います。一番大きな目的としては、日本の医療現場でも臨床研究できる環境をつくりたいということに尽きます。現在、科学分野におけるインパクトの高い論文数の国別ランキングで、日本はトップ10圏外。医学研究の分野に絞っても、論文数が唯一減り続けている国となっています。この裏には様々な要因がありますが、大きなものとしては医療現場には論文の読み方を知らない方が多くいることが挙げられます。その上、システマティックレビューと呼ばれる、一つの臨床疑問に基づいて様々な研究を集め評価する研究では、何千何万の抄録からわずか数本を選ぶ膨大な作業を必要とします。これらの作業にAIを用いて自動化することで、負荷を軽減したいとの想いから本コンペティションを開催させていただきました。日本の医療の進歩に貢献するかもしれない、皆様の解法発表を楽しみにしています。」 開会の挨拶に続き、運営を代表してSIGNATE池之上氏より、コンペティション概要の説明が行われました。

株式会社SIGNATE データサイエンティスト 池之上 陽平氏 「先ほど片岡様からありました通り、テーマは、網羅的に収集された論文の中から目的に沿った論文を抽出するというものです。目的に沿ったものをラベル1、そうでないものをラベル0という形で落とし込んだ2値分類タスクとして設計しています。なお、予測精度を図る評価指標はFBetaScoreを採用し、βの値を7、つまりRecallを重視する形で設定しました。理由としては、論文を仕分ける上で想定される2種類の誤り「欲していない論文を採択してしまう誤り」と「欲している論文を非採択としてしまう誤り」を比べた際に、後者の方がより避けたい誤りであるという事情があるためです。最後に、開催結果についてですが、参加者数1,429名、投稿チーム数594チーム、投稿件数13,774件、ディスカッションコメント数100件以上と、過去のコンペと比べても非常に多くの方にご参加いただきました。参加、応援いただいた皆様、本当にありがとうございました。運営を代表してお礼を申し上げ、ご挨拶の言葉といたします。」
入賞者の発表
表彰式はいよいよ、メインイベントである入賞者の発表と、解法のプレゼンテーションへと移行。まずは、SRWS-PSG 片岡氏より入賞者の発表と表彰が行われました。第3位に入賞されたのはjc氏。続いて、2位入賞を果たしたのはryuki999氏。そして、見事第1位に輝いたのは、yui_kasuga氏でした。
成績上位者プレゼンテーション
入賞者の表彰が終わると、入賞者によるプレゼンテーションが始まりました。第3位に入賞されたjc氏は、今回は残念ながらご都合がつかず、解法の発表はありませんでした。第2位のryuki999氏と、第1位のyui_kasuga氏の解法プレゼンテーションと質疑応答は以下の通りです。
第2位
ryuki999氏

「はじめに、使用したモデルについてですが、BERT系の事前学習済みモデルであるPubMedBERTを使用しました。その他、RoBERTa等のモデルも試行しましたが、PubMedBERTが最も精度が出そうだったので、こちらを使用しています。また、前処理も試行しましたがスコアへの影響がなかったので、今回は行っていません。特徴量としては、titleとabstractを結合したものを用いました。検証方法については、正例が少なかったため、質を担保しつつ、データを有効活用したかったので、StratifiedKFoldを用いて、単純に分割数を上げています。Judgement判定の閾値調整に関しては、探索的に手動で行いました。モデル作成後の初回投稿はoof値を参考にscipy_minimizeで閾値を最適化。次に、Public LBを参考に閾値を調整。その後、訓練データのLocal ScoreとテストデータのPublic LBの値を鑑みて最終サブミットを選択したという流れです。なお、今回のモデルはシングルモデルで、アンサンブルはしていません。簡単ではありますが、以上で解法プレゼンテーションを終了させていただきます。ご清聴ありがとうございました。」 発表に続いて会場からは質問が寄せられ、その一つひとつにプレゼンターから丁寧な回答がされました。 視聴者からの質問:データ内の代表的な単語はどのように抽出されたのでしょうか? ryuki999氏からの回答:まず、trainデータのtitleのみに注目しました。その上で、空白で単語を分割し、その頻度を数えた形になります。それを降順にソートして拾っていきました。 視聴者からの質問:すべてのデータを使用したのでしょうか? ryuki999氏からの回答:はい。今回は用意されたデータを全て使用しました。特にアンダーサンプリングのようなことは行っていません。 ryuki999氏の発表に続いて、いよいよ優勝者の発表。見事、1位に輝いたのは、yui_kasuga氏。解法についての発表は、以下の通りです。
第1位
yui_kasuga氏

「まず考えたのが、高い頑健性が求められそうだなという点でした。BERTの学習自体が不安定になりがちなこともありますが、データも不均衡ですし、評価指標であるFBetaScoreも不安定な傾向にあります。そこで、3つのバイオメディカル系のBERTをアンサンブルしつつ、頑健性向上のために3点ほど工夫を施しました。1点目がベストモデルの選定について。fold内でFBetaScoreが高いものを3つ選択して、fold内でもアンサンブルを行いました。2点目が閾値の設定。総当たりで閾値を探索し、foldごと、モデルごとの最適値を平均。バリデーションに過剰にフィットしないように工夫しました。3点目が損失関数。Focal Lossを使用することで、予測値が極端になるのを緩和しています。これにより、閾値の設定を多少誤っても損失関数でカバーできたのではないかと思います。学習については、オプティマイザーにAdaBeliefを用いたこと、バリデーションの間隔を30ステップと少し短めにしたところは特徴的かもしれません。発表は以上となります。」 視聴者からの質問:使用モデル選択の際に、試したモデルは総数でいくつほどだったのでしょうか? yui_kasuga氏からの回答:実際に試したのは20ほどです。同じモデルで使用するデータのみを変えたもの等、かぶっているものは省く形で効率化しました。 視聴者からの質問:abstractの文章が長いときに、BERTに入力するときに文章を分割する必要がありますが、分割後の短くなった文章が目的のラベル情報を持つデータではなくなる場合はどのように対応しましたか。 yui_kasuga氏からの回答:これは結構大きな問題だと思います。ただ、今回は基本的には、文章が多すぎてはみ出すものは無かったことにして、学習データに取り入れない手法をとりました。今回のような分類モデルについては、今までの経験則から、そこまで気にしなくていいかなと考えたのが理由です。 以上をもって、上位入賞者2名による解法プレゼンテーションと質疑応答が終了。最後に総評として、開会のご挨拶も務めたSRWS-PSG片岡氏よりお話をいただきました。

SRWS-PSG 片岡 裕貴氏 「改めて、多くの参加者の中から入賞された3名の方々、本当におめでとうございました。そして、有意義な発表ありがとうございました。プレゼンテーションの中にもありましたが、特に日本においては学習させるデータ自体が少ないという課題があります。医療領域においても、より多くのデータを提供できるよう何らかの施策を検討していければと考えています。また、今回発表いただいたモデルについては、まずは論文として発表しつつ、Web上でアプリケーションとして実装し、誰もが使える形にしていきたいです。その後、データを加えて、医療現場での実用化に向けてアップデートしていければと思います。繰り返しにはなりますが、今回はコンペティションへのご参加、誠にありがとうございました。」 片岡氏の後には、協力いただいた兵庫県立大学の笹島氏、藤田医科大学病院の寺澤氏、そして本コンペティションにご協賛いただいた富士フィルム株式会社様からも、入賞者へ賞賛と感謝の言葉が送られ、表彰式は閉会となりました。
まとめ
少子高齢化が進み、医療の維持・成長が大きな社会課題となっている日本。近年では新型コロナの流行もあり、医療の重要性を再認識している中でのコンペティション開催となりました。先生方からは、現場でのシステマティックレビューにはもう少し複雑な状況も入ってくるため、そこに適応できればというお話もありましたが、その兆しが見えるような素晴らしいモデルが集まったのではないかと思います。単純にAIに関するスキルを磨き、共有できるだけでなく、今回のように社会課題解決の光にもなる。そんな、コンペティションが持つポテンシャルにも気付かされた有意義な表彰式でした。 <Systematic Review Work Shop-Peer Support Group (SRWS-PSG)「医学論文の自動仕分けチャレンジ」コンペティションの詳細はこちら>