理系や文系といった専攻分野に関係なく、誰でも平等にスキルを競い合える機会の提供を目的として、SIGNATEが主催する学生向けコンペティション「SIGNATE Student Cup」。このコンペティションへの参加条件はたった一つ。SIGNATE Campus会員であることだけだ。制限や制約なく、思う存分自身のスキルを試し、学び合い競い合うことができる場となっている。 2018年の初開催以降、AIやデータサイエンスへの関心の高まりを受けて毎年開催され、2021年で4回目の開催を迎えた。4回目のテーマは楽曲のジャンル推定。楽曲の特徴情報データをもとに、ジャンルを予測するモデルの精度を競い合う「予測部門」と、外部データも活用しながら新たなジャンル分類方法の探索を行う「インサイト部門」の2部門で開催された。 昨年開催された第3回のSIGNATE Student Cupにも参加していたKa28さんは、二度目の参加となる今回の第4回開催分で見事、予測部門で優勝を果たした。SIGNATE Student Cupへ参加したきっかけや、取り組みにおける工夫などを率直に伺ってみた。
▼動画はコチラ▼
脳内で考えていたことが、AIで予測できてしまうという興奮。
SIGNATE Student Cupへの参加は今年で二度目ですが、コンペティションに参加し始めてからは、まだ1年ほど。決して経験豊富なわけではありません。思えば、初めて参加したコンペティションもSIGNATEで開催されていた『ひろしまQuest2020#stayhome:プロ野球データを用いた配球予測』でした。それまでコンペティションの経験もなかったのに、なぜ参加しようと思ったのかというと、テーマが面白そうだったから。プロ野球の配球予測で、もともと自分が野球をしていたこともあって、親しみのあるテーマだったのです。単に野球が好きなだけでなく、統計学の観点から野球データを分析するセイバーメトリクスにも興味があったので、このコンペティションは面白そうだなと思って参加することにしました。 一応、研究でディープラーニングに触れる機会があったのですが、その下地になる数学や統計といった基礎知識が、他の参加者の方に比べると不足しており、コンペでは苦戦した記憶があります。しかし、自分がプレーしていた時に脳内で考えていた様々なことが、AIでここまで予測できるという事実にとても興奮して、苦労よりも面白さの方が強く印象に残っていますね。そこでAIの面白さに気づいてからは、定期的にコンペティションに参加するようになりました。
コンペティションでしか身につかないノウハウがある。
書籍を読んだり、ネットでいろいろ調べたりしましたが、やはりコンペティションに参加したことで知識やスキルのレベルが向上した感覚があります。モデルをどう構築するかだけでなく、データの入念な確認や前処理の大切さについて身をもって知ることができましたし、他の人の着眼点やアプローチ、解法もとても勉強になりました。これらはコンペティションに参加する中で身に付いたもので、座学だけでは決して得られなかったと思います。 いくつかのコンペティション参加を経て、知見とスキルを獲得できたので、今回の楽曲のジャンル推定に関しては、データを見た段階で解法のポイントを見立てることができました。データで最初に気になったのはラベルが偏っていることでした。ラベルの数が均等ではなく、少ないものは極端に少なかったのです。これをどう処理していくかが精度を出すポイントになるだろうと考えました。 ただ、まずは組んでみないと実際にどこがネックになるかはわかりません。簡単なモデルでベースラインを組んでみて、そこから試行錯誤しながら精度を上げていく形でアプローチしていきました。
周りの人のアイデアも、良いと思ったものはどんどん使った。
精度を上げるための工夫は、コンペティションのフォーラムを参考にしました。コンペ参加者が、それぞれのアイデアを共有してくれていたので、そこから精度向上につながりそうなものをピックアップして採用していきました。特徴量についても、フォーラムで公開されていたものを使わせてもらいました。 独自で工夫した点としては、アンサンブルの部分です。4つのモデルを組み合わせているのですが、その組み合わせ自体は、フォーラムではなく自分で導き出したものです。ただ、何か変わったことを行ったというよりは、シンプルにありとあらゆるモデルを組み合わせながら一つひとつ試し、その中で最も精度が出た組み合わせを採用しました。 また、ラベルの偏り対策として多様なモデルを用いるように意識しました。与えられたデータに丁寧に目を通して、分布図におこした上で気が付いた点を地道に反映させていきました。表彰式で他の入賞者の方の解法も興味深く聞かせてもらいましたが、他の皆さんは独自の工夫も多く凝らしていて勉強になりました。私の解法が一番地味だったような気がしますね(笑)。
やるべきことをやれば、初心者でも結果は出せる。
決して、何か斬新な発想や、高度な技術を用いたわけではありません。ではなぜ1位を獲ることができたのかといえば、やるべきことを地道にコツコツ積み重ねていった結果ではないかと思っています。与えられたデータに目を通し、他人の意見も参考にしながら、効果が出そうなものはまずは素直に試してみる。時間がかかっても考えられる可能性を地道に一つずつ潰していく。それが、結果に繋がったと考えています。 一般的には、斬新な解法やオリジナリティのあるアイデアが盛り込まれていないと良い成績が出せないと思うかもしれません。でも、これといった特徴のない、いわば正攻法とも言える私の解法でも今回は結果を出すことができました。これは、まだ知識や経験の浅い初心者の方でも、向き合う姿勢次第で結果が出せるという一つの例になるのではないでしょうか。もちろん、テーマにもよるとは思いますが、こうしたところもコンペティションの面白い部分だと思っています。課題を楽しみながら、粘り強く取り組める方なら決して上位入賞も夢ではないので、変に怖がらずに参加してみるのもいいのではないかと思います。
今後の目標
今後もコンペティションに参加していきたいなと思っていますが、特に画像系に興味がありますね。研究で扱うのは物体検出がメインなので、画像認識系のコンペティションに参加して、そちらの知見も磨いていければと思っています。 <株式会社SIGNATE主催「SIGNATE Student Cup 2021春:楽曲のジャンル推定チャレンジ!!」の入賞者レポートはこちら>