日本には長年受け継がれてきた古典籍・古文書・古記録といった歴史的な資料(史料)が存在する。それらは我々の社会にとって貴重な財産であり、保存だけではなく有効に活用することが望まれる。しかしながら史料にはくずし字で書かれているものも多く、そのような史料は専門家など一部の人にしか読めない。 そんな問題意識の下、凸版印刷株式会社はくずし字認識アルゴリズムを作成するコンペティションをSIGNATEで開催した。凸版印刷は情報・文化の担い手として、彩りの知と技をもとにふれあい豊かなくらしに貢献することを目指しており、その一環として2014年からくずし字OCRの研究開発・事業化を進めてきたという。 本コンペティションでは「くずし字行領域認識アルゴリズム作成チャレンジ」と「くずし字行内文字認識アルゴリズム作成チャレンジ」が同時並行で開催された。今回、前者の行領域認識アルゴリズム作成において優勝を手にしたKOUNTチームに、コンペティション参加の経緯や優勝の秘訣を聞いた。

社内のKaggle部メンバーでコンペティションに参加

-TOPPAN1-Winners-Interview-1

河合 直浩: 今回のコンペティションには、NRIデジタル株式会社の社員でチームを組み参加しました。弊社には、社内にKaggle部があり、普段からコンペティションに入賞し会社のプレゼンスを高める目的で活動しています。基本的には3〜5名でチームを組んで参加することが多いですね。同じデータサイエンティストでも得意分野は異なり、私や永間さん、碓井さんはテーブルデータを扱うプロジェクトに従事していますし、奥山さんや滝口さんは画像認識が得意です。コンペティションにチームで参加することで、データサイエンティスト同士でノウハウを吸収しあい、若手を育てていくことも目的のひとつです。 永間 雄大: 大学で画像系のタスクに触れた経験があり、スキルとしてもう少し伸ばしたかったので参加しました。コンペ参加を通して、先輩方がどのように知識を得て、課題に取り組んでいるのかを学ぶことができ、知識不足を再認識しました。今回のタスクでは斜めになっている物体の検出があるのですが、一般的な物体検知の経験があったのでそれを活かそうと思っていたところ、実際には知らなかった課題がどんどん出てきました。先輩方から、それらの解法に対応するデータセットやライブラリがあると教えていただき、知識を蓄えられたと感じます。 碓井 秀幸: 私は画像系のタスクの経験がなく、コンペティション自体も今回初めての参加です。奥山さんなどKaggleで入賞経験のあるメンバーもいたので、不明点を丁寧に解説していただき、新しく触れる技術についてどう使うか、どのような効果が得られるかといった知見が得られました。 河合 直浩: 私も回転物体検出などの経験はありませんでした。奥山さんにDNNの構造を詳しく解説していただきました。私も含め、今回は画像系のタスクをあまり触った経験のないメンバーもいたので、レベル差を乗り越えて知識を吸収するハードルの高さもありましたが、どうにかついていこうと学ばせてもらいました。 奥山 陽平: 一番詳しい人のように言われて恐縮ですが(笑)、今回の回転物体検出に関しては私も知見はなく、タスクの類型としては初めてのチャレンジでした。検索しながら試行錯誤していたところ、たまたま幸運にも良いライブラリを見つけてフィットした、というのが正直なところです。世の中の先端技法を調べて、それを使って実際に成果を出して優勝できたのは私にとっても良い学びでした。 経験者の知識を経験が浅いメンバーにどう伝えていくかというのは難しいところで、メンバーでも時折話し合っています。 滝口 広樹: 私も物体検出や画像認識については経験がありましたが、自分の中に留めていると、どうしても自分の知識の範囲で仕事をしてしまい、知識を広げるのが難しいことがあります。今回は新しいライブラリに触れる機会もあり、仕事とコンペティション双方に活かせる機会になったのを肌で感じました。もちろん、知識がある人とない人双方で高めあいながら、一緒にやるのは難しいこともあります。どのような方法があるのかはKaggle部でも話し合い、今後も試行錯誤していきたいですね。

-TOPPAN1-Winners-Interview-2

効果的なライブラリを早く見つけたことが優勝につながった

奥山 陽平: 優勝できた理由としては、傾いた状態のくずし字を検出するライブラリをかなり早めに見つけたことが大きいです。4月頭にコンペティションに参加し、1〜2週目にライブラリを見つけ、ベースラインを早期に固めて逃げ切れたという印象です。 ライブラリを見つけることができたのは幸運としか言いようがありません。チームの物量と手数のたまものです。最終日1〜2週間前くらいまでは独走していたのですが、最後は4〜5チームに抜かれました。暫定順位は5位くらいに落ちたのですが、蓋を開けてみたら圧倒的に1位で驚きましたね。コンペティションページにある「トップスコア順位」を見ても、4月半ばくらいに作った解法が、一番スコアがよく、常に上位にいたので、本当に早く固められたのは良かったです。 滝口 広樹: ベースラインが固まってからは学習データを増やす、ハイパーパラメータをチューニングするといった基本的なことを行っていました。データに対してどのようなパラメータがいいのかわからないまま試行錯誤していたので、暫定評価のスコアの中でどのようなパラメータの変え方をしたらスコアが上がるのかなどの細かい部分を調整していたら、時間が過ぎるのがあっという間でした(笑) 河合 直浩: 4月くらいに一気にスコアが伸びたので、これはいけるかなと思っていました。しかし、プライベートスコアでは良いスコアを取れていたものの、パブリックスコアでは私たちより良いスコアの方がいました。そこでオープンデータを使い、自動での回転・縮小やハンドラベリングなどでデータを増やす処理をしましたが、最後にスコアを伸ばすことができたのはやはりチームの物量のたまものでしたね。最終的に、パブリックスコアは上がったもののプライベートスコアは上がっていなかったというオチですが(笑) 永間 雄大: ちょうどコンペティション期間の2〜3ヶ月前まで、物体検出のプロジェクトに携わっていました。画像の中でどういうアノテーションが行われているのかといった、画像の可視化周りのノウハウを得ていたので、微力ながらチームの役に立てたと思います。

-TOPPAN1-Winners-Interview-3

企業のデータサイエンティストとして求められるもの

河合 直浩: 弊社は、e-learningによりスキルアップ可能な環境が整備されているのですが、その中でも会社負担でCourseraを受講することができ、私はそこで基礎的な画像処理の勉強をしていました。さらに今回コンペティションを通して実践を積むことができたので、大変良い経験になったと思います。弊社としても一人一つの技術ではなく、複数の技術を持つ人材であることが求められるので、今後の案件の広がりにも活きてくると感じています。 永間 雄大: 今後のスキルセットとして画像処理を軸にしたいと思っていました。今回改めて触れたことで自分の引き出しの少なさに気付くことができたので、大変学びになりました。これからも画像処理に限らず新しいインプットを増やし、引き出しを増やしていきたいですね。 碓井 秀幸: 実務では手を動かす事が多い立場で、これまではテーブルデータ系プロジェクトのチームに参加していました。今回、画像処理を扱ったことで携われるプロジェクトの幅も広がったので参加した意義があったと思います。 河合 直浩: 私は現在マネージャーという立場で実装から離れていますが、これからのマネージャーはどんなに年をとっても技術をアップデートしつづけることが求められます。今は年齢関係なく技術を身に付けている人がたくさんいますし、コンペティションはたとえ負けても上位者の発表を見られるのが良いところです。私も多々負けています(笑)マネージャーとしての幅も広がるので、ぜひマネージャークラスでも参加する人が増えればいいなと思います。

-TOPPAN1-Winners-Interview-4

コンペティション参加を検討している方へのメッセージ

永間 雄大: 私も今回のコンペティションで経験しましたが、知識はあっても自分で手を動かさないことには身につかないので、コンペティションは貴重な実践の機会です。ぜひ多くの方に参加してほしいです。 碓井 秀幸: コンペティションでは普段関わらない方の解法も学べ、自分の知見が広がるので、今後も参加していきたいですね。 奥山 陽平: 私は、どちらかといえばクライアントに対して技術的な提案をする機会が多いのですが、今回、新しい技術に触れられたことは良い経験になりました。一方で、私はコンペティションに100%ゲームとして参加しています。知的なゲームで腕を競うのは何よりも楽しいですし、勝てば会社の宣伝にもなりますし、賞金もある。“一石三鳥”の機会なので、これから参加されるみなさんにも、ぜひゲーム感覚で気軽に参加してほしいと思います。 滝口 広樹: 私はマネジメントにも携わりつつ、実際に手を動かす機会も多いです。コンペティションは自分が書いたコードがスコアになるのが自身の腕を試す機会として非常にわかりやすく、普段の業務とはまったく違うようなテイストのタスクにも取り組めるので、データサイエンティストのスキルアップにおいて非常に良い機会です。普段仕事に手一杯でも、ゲーム感覚で取り組むことで気分転換になるので、ぜひプラスに捉えてどんどん参加してほしいですね。

-TOPPAN1-Winners-Interview-5

<凸版印刷株式会社主催「くずし字認識チャレンジ① くずし字 行領域認識アルゴリズム作成」の詳細はこちら>

この記事をシェアする