winner's_interview_StudentCup2021春:楽曲のジャンル推定チャレンジ_3rd_チームKumaQ

理系や文系といった専攻分野に関係なく、誰でも平等にスキルを競い合える機会の提供を目的として、SIGNATEが主催する学生向けコンペティション「SIGNATE Student Cup」。このコンペティションへの参加条件はたった一つ。SIGNATE Campus会員であることだけだ。制限や制約なく、思う存分自身のスキルを試し、学び合い競い合うことができる場となっている。 2018年の初開催以降、AIやデータサイエンスへの関心の高まりを受けて毎年開催され、2021年で4回目の開催を迎えた。4回目のテーマは楽曲のジャンル推定。楽曲の特徴情報データをもとに、ジャンルを予測するモデルの精度を競い合う「予測部門」と、外部データも活用しながら新たなジャンル分類方法の探索を行う「インサイト部門」の2部門で開催された。 この予測部門で見事3位に輝いたのがチームKumaQの皆さん。同じ大学、学部学科出身の友人同士で参加したという4名に、SIGNATE Student Cupへ参加したきっかけや、取り組みにおける工夫などを率直に伺ってみた。


▼動画はコチラ▼


仲間と楽しみながら腕試しができるチャンスだと思った。

harapeco:みんなに声をかけたのは僕です。現在の研究でデータ分析を行っていることもあり、データ分析のコンペティションに参加して腕試しがしたいなと考えていました。参加するなら、個人で出るよりも友人と一緒に参加した方が、みんなと意見を出し合えたり、それぞれの得意分野を活かしたりできて楽しいだろうと考え、3人を誘ってみたのです。

[051]Winners-Interview-1

onishimal99:私も以前からコンペティションに興味があったので、すぐに参加を決めました。現在は、人工知能を用いた画像処理を扱う研究室に所属しているので、AIについての基礎知識を持っていましたし、みんなで参加するのも面白そうだなと思って。研究ではどうしても個人作業になりがちなので、いい息抜きになるかなという想いもありましたね。 yaa.seeee:私は深層学習を用いた画像分野の研究をしているのですが、音声データも周波数分析などにより画像データとして扱うことができるということを耳にしていました。そのため、今回のコンペティションでは、その知見が活かせそうというのが一番の参加理由でした。ただ、いざ蓋を開けてみたら、用意されていたデータは音声データではなく、テーブルデータでしたね(笑)。でも、就職後は今回のテーマと近い領域の仕事をするので、いつか役に立つかもという前向きな気持ちで取り組むことができました。 SUKE:声をかけてもらった時、「ラッキー!」と思ったのを覚えています。それというのも、ずっとコンペティションに参加してみたいなと思っていたのです。ただ、自分の専門分野に合致するテーマのコンペティションがなかなか見つからなかったり、参加経験がなかったりと、微妙に気持ちの面でハードルの高さを感じていて…。でも、知識も経験もある友人と一緒に参加できる、これはまたとないチャンスだぞ!と思いました。

不均衡なデータ、抽象的な特徴量。これらをどう処理していくべきか。

harapeco:今回のコンペティションは予測部門とインサイト部門の2部門で開催されていましたが、純粋に精度で勝負でき競技感覚で楽しめそうだとの思いから、私たちは予測部門に参加することにしました。明確な目標に向かってみんなで頑張るほうがモチベーションも高まりますしね。 SUKE:実際に予測部門の用意されているデータを見てみたら、なかなか難しそうだぞと。特に課題に感じたのが、データの不均衡性です。予測対象のクラスによって、数の少ないものと多いものの差がかなりあったので、これをどう処理するかが精度を左右するのではないかと考えました。 harapeco:あとは、特徴量が抽象的なのも少し厄介でした。「踊りやすさ」のような定義が難しい特徴量が多くあって、そうした抽象的な特徴量をどう数値化していくかも考えどころかもしれない、とみんなで話していました。 yaa.seeee:いくつか考えるべきポイントはありましたが、データが音声データではなくテーブルデータだったので解法自体はシンプルになるかもと感じていました。テーブルデータは、比較的よく扱われるデータですので、セオリーに沿って組み立ていけば、ベースラインは構築できるはず。その後、精度向上のためにどんな工夫ができるかが勝負だと考えました。 onishimal99:その仮説に沿って、まずはいくつかのモデルを比較しながらベースラインを組み上げていったのですが、そこで一つ目の壁に突き当たりました。それが、先ほどお話しした特徴量の問題でした。

[051]Winners-Interview-2

諦めずに取り組み続けたアンサンブルが最後のひと押しに。

onishimal99:抽象的で扱いづらい特徴量からでも分類を行うために、新たに有効な特徴量を独自に作成することにしました。その手法に関してはフォーラムを参考にしました。フォーラムに参加されている方の投稿を見ていると、どうやら「制作地」と「人気」の2つの特徴量が有効そうだと判明し、それならば「制作地」「人気」の両方を使えばいいのではないかと考えました。 yaa.seeee:フォーラムでは、どちらか一方の特徴量を使っている人が多かったですね。ただ、ターゲットエンコーディングを活用すれば、両方を用いて新しい特徴量を作成できるはず。ちょうどターゲットエンコーディングについて書籍で学んだばかりだったこともあって、試してみたら上手くいきました。

[051]Winners-Interview-3

harapeco:もう一つの懸念ポイントだったデータの不均衡に関しては、オーバーサンプリングする形で対応しました。アンダーサンプリングだと、やはり一部のデータ数が非常に少ないせいで精度が出せなかったので。 SUKE:この特徴量エンジニアリングと不均衡データの処理でだいぶ精度を上げられました。そして、最後の最後にもう少しだけ精度を上げられたのがアンサンブルの部分。ニューラルネットを用いて3種類のモデルをアンサンブルしているのですが、実はこれ、最初はなかなかうまくいきませんでした。でも、うまくいかない理由やその解決法については方向性がいくつか見えていたので、諦めずにずっと試行錯誤していました。それが期限までになんとか間に合い、精度向上に寄与してくれました。今思うと、途中で諦めなくて本当に良かったです。

仲間同士や参加者から学びを得られ、貴重な経験ができた。

harapeco:みんなの頑張りもあって、なんとか3位に入賞することができました。入賞という結果も嬉しかったですが、私は他の3人と違う研究室ということもあって、彼らの知見を共有してもらうのも刺激になりました。貴重な経験をさせてもらえたと思っています。 yaa.seeee:単純に、仲間と試行錯誤しながら、少しずつ順位を上げていくのがとても楽しかったですね。表彰式で他の入賞者の方の解法を聞けたのも勉強になりました。損失関数における工夫だったり、pseudo-Labelを用いることだったり、自分たちは実装できなかったいろいろな技術を知れたので、いつか自分でも使ってみたいと思っています。 onishimal99:研究では音声データを扱うことが多いので、こうした一般的なテーブルデータを扱う機会があまり多くありませんでした。そういう意味で、今回のコンペティションを通して、テーブルデータの処理のイロハは学べたと思うので、少し自信がつきました。今後もコンペティションを通して、研究だけでは身につけられない知見を吸収していきたいですね。 SUKE:私は、今回が初めてのコンペティション参加だった分、本当に学びが大きかったです。学習データをバリデーションする際にリークしないで実行する方法などは、コンペティションに参加しなければ知らないままだったと思います。一方で、精度を上げていく過程では技術的な側面や論理的な側面からアプローチする必要があって、そこは研究と似ているなとも感じました。研究にもプラスになる手応えがあったので、実は自分から知人に声をかけて、今も別のコンペティションにも参加しています。もちろん、今後もどんどん参加していきたいなと思っています。

[051]Winners-Interview-4

コンペティション参加を検討している方へのメッセージ

harapeco:成長の機会としてうまく活用できるといいと思います。わからないことがあっても、それについて調べることで自分の引き出しが増えますし、難しそうと思っても興味が持てたら、まずは一歩踏み出してみるといいのではないでしょうか。 SUKE:どうしてもハードルを感じる方は、周りに頼るのもアリだと思います。私自身、そう思っていてなかなか参加できずにいました。でも、知人と一緒に私も参加できたので、ぜひチームでの参加も検討してみてください。 yaa.seeee:何か実績が欲しいと考えている人にも、コンペティションをお勧めしたいです。入賞すれば、実績だけでなく自信を持つことができます。もちろん、頑張っても入賞できないことの方が多いですが、それが学習意欲の向上に繋がったり、入賞者の解法も学べますので、入賞できなくてもたくさんのメリットがあることは保証します。 onishimal99:コンペティションはいろいろなテーマがあって、そこから興味があるものを選べるのも良いところだと思っています。自分が強い分野で参加するのもいいですし、今回の私のように普段は扱わないテーマを選び、あえて自ら学びにいくという機会にするのもアリ。自由に選んで気軽に参加してみてください。 <株式会社SIGNATE主催「SIGNATE Student Cup 2021春:楽曲のジャンル推定チャレンジ!!」の入賞者レポートはこちら>

この記事をシェアする