winner's_interview_ひろしまQuest2020:画像データを使ったレモンの外観分類(ステージ2)_1st_アルス

レモンの生産量日本一を誇る広島県では、レモン栽培が重要産業のひとつとなっている。一方で高齢化が進み、レモン農地が急傾斜地に作られることもあって、農家の負担が大きくなっている課題を抱えていた。そこで、出荷における選別工数を削減することで、少しでも負荷を減らすことを目的に、画像データを用いてレモン等級を自動分類するアルゴリズムをコンペティションで募集する運びとなった。 本コンペティションで3位入賞を果たしたアルスさんに、本コンペティションに参加を決めた経緯や、取り組みにおける工夫、参加することで得られた学びなどについて話を伺った。


▼動画はコチラ▼


社内で積めない経験は、コンペティションで経験すればいい。

AIは私にとって、以前から身近な存在でした。学生時代もデータサイエンスを専攻していて、研究ではデータ分析や統計解析を頻繁に行っていました。卒業後に就職したSIerでも、SAPの新規導入に向けたデータ加工や整合性チェックを担当し、データとにらめっこの毎日でした。現在は転職してマーケティング会社の研究開発部門でエンジニアとして勤務しています。当社とアライアンスを組んでいるパートナー企業が保有する様々なデータに対して、機械学習やIoTなどを用いた技術検証を行い、新たなソリューションを開発することが現在の私のミッションです。 学生時代から現在に至るまでデータを扱い続けてきましたが、コンペティションに参加するようになったのは、2014年頃からです。当時はSIerに勤務していたのですが、実は少しだけ業務に不満を抱えていました。それは、データ分析の機会が少なかったこと。データを扱う仕事ではありますが、システムに最適な形へデータを加工するのが主な業務で、データを分析して何か新しいものを生み出す経験はあまり積めなかったのです。社内で経験できないなら社外でやればいい。そんな単純な考えで、データ分析の機会を求めて辿り着いたのが、SIGNATEのコンペティションでした。

[016]Winners-Interview-1

地道に順位を上げていく感覚は、RPGのレベル上げのような面白さがある。

当時のコンペティションはデータセットのサイズも小さく、エクセルで扱えるようなデータ量だったこともあり、最初からそれほど大きな挫折はなく、楽しんで参加していました。ただ、上位に入賞できるような結果を出すとなると話は別。自分が立てた仮説通りの結果が出るような実装や調整を行うのが難しく、苦労しました。それでも、試行錯誤を続けていくと、リーダーボード上の自分の順位が少しずつ上がり、それがモチベーションになっていました。地道にコツコツ積み重ねることで、目に見える形で数字が上がっていく感覚は、RPGのレベル上げに近いかもしれません。 今に至るまで、ずっとコンペに参加し続けているのは、そんなゲームにも似た面白さだけでなく、今の会社の風土も影響しています。現在の所属先の上長が、社外コンペティションへの参加を後押ししてくれるのです。今の仕事はデータ分析のスキルが高ければ高いほどいい。そのためなら、外部の学習機会も積極的に利用していきなさい、と。そんなこともあって、弊社では私に限らず同僚たちが社外コンペティションに参加しています。今回参加したコンペティションも、そんな流れで参加したコンペティションのうちの一つでした。

[016]Winners-Interview-2

画像認識系の知見を得る絶好の機会だと思った。

数あるコンペティションの中からレモンコンペを選んだのは、画像認識系の知見を得たかったからです。今の仕事では、手広くAIを用いた研究開発をしていますが、画像解析を行う機会がさほど多くありません。画像認識は、大量の画像データを用意する必要があるので、コンペティションで開催されるテーマとしても比較的少ない部類だと思っています。Kaggleで画像認識系のコンペティションも開催されていますが、どれもレベルが高い。その点、今回のレモンコンペは、シンプルな画像分類だったので私でも参加できそうだなと感じました。 ただ、実際に学習データを見てみると一気に暗雲が立ち込めました。レモンの画像が大量にあって、それを4つの等級に分類する内容でしたが、人間の私が見ても等級の差がほとんどわからないのです。果たしてAIで正確に分類できるのか。そんな不安を抱えながら作業を開始しました。 最初は、シンプルに4つのクラス分類問題として解いていましたが、途中で評価指標が気になり始めました。本コンペティションの評価指標は少し特殊で、同じ間違いであっても、「優良」と「良」を間違えるのと、「優良」と「規格外」を間違えるのとでは、後者の方がより大きなペナルティが与えられます。つまり正誤だけでなく、誤りの程度まで判定されるのです。試しに途中で、それまで組んでいたアルゴリズムにデータを入れて評価を走らせてみたら、「優良」を「可」と間違える、「良」と「規格外」を間違える、といったように、予測を大きく外した画像が多く存在していました。

[016]Winners-Interview-3

精度はもちろん、実運用でも役に立つような仕様も。

正答率を上げるだけでなく、誤る幅も狭めなければいけない。そのためには、0、1、2、3の4つのクラスを独立した値として扱うのではなく、連続値として扱うことで、回帰で解けばいいのではないかと考えました。調べたところ、ほんの少し調整を加えるだけで分類から回帰になることが分かりスムーズに修正することができました。 あとは、同じクラス内でも揺らぎがあることを想定して、0の中でも0.0〜0.4まで判別できるようラベルを貼り直す工夫も行いました。これも、精度向上に効果的だったと思っています。またこの方針は、精度向上だけでなく、実運用を考えたときのメリットにもなり得ると考えました。例えば、同じ「優良」の中でも、より優れた0.0や0.1のレモンだけをブランド品としてマーケティングを行うことが可能です。こうした運用面にまで想いを馳せながら、3位入賞という結果を残せたのは嬉しかったです。 今回のコンペで画像のクラス分類と回帰については一定の知見を得ることができたと思っています。ただ、画像認識には、画像分類の他にも、物体検出、セマンティックセグメンテーション等の様々領域があります。「画像認識なら私にお任せください」と胸を張って言えるように、今後もコンペティションで学びや経験を増やしていきたいと思います。

[016]Winners-Interview-4

今後の目標

自分の中で、次に学びたい画像認識のテーマにおいているのがセグメンテーション。実は、ちょうど現在、セグメンテーションを扱うコンペティションに参加しているところです。まだ上位というわけではありませんが、戦える位置にはつけているので、ここから精度や順位を上げつつ、自分の知見も高められるよう頑張ります。 <ひろしまサンドボックス推進協議会事務局主催「ひろしまQuest2020:画像データを使ったレモンの外観分類(ステージ2)」の入賞者レポートはこちら> <ひろしまサンドボックス推進協議会事務局主催「ひろしまQuest2020:画像データを使ったレモンの外観分類(ステージ2)」表彰式の動画はこちら>

この記事をシェアする