winner's_interview_StudentCup2021春:楽曲のジャンル推定チャレンジ_2nd_でるぶ

理系や文系といった専攻分野に関係なく、誰でも平等にスキルを競い合える機会の提供を目的として、SIGNATEが主催する学生向けコンペティション「SIGNATE Student Cup」。このコンペティションへの参加条件はたった一つ。SIGNATE Campus会員であることだけだ。制限や制約なく、思う存分自身のスキルを試し、学び合い競い合うことができる場となっている。 2018年の初開催以降、AIやデータサイエンスへの関心の高まりを受けて毎年開催され、2021年で4回目の開催を迎えた。4回目のテーマは楽曲のジャンル推定。楽曲の特徴情報データをもとに、ジャンルを予測するモデルの精度を競い合う「予測部門」と、外部データも活用しながら新たなジャンル分類方法の探索を行う「インサイト部門」の2部門で開催された。 その予測部門で2位に入賞したのが、でるぶさん。医学生であり、本業の学習にも追われる中で水泳部にも所属。そんな忙しい毎日を過ごしながらも、なぜ自らAIを学ぼうと思ったのか。SIGNATE Student Cupへ参加したきっかけや、取り組みにおける工夫と合わせて話を伺った。


▼動画はコチラ▼


いずれ、医学の世界でも当たり前にAIが活用されるに違いない。

私は、水泳部に所属しているのですが、新型コロナウィルスの流行により部活動が活動停止になった時期がありました。それまで水泳に費やしていた時間を持て余すようになり、何か代わりにやることがないかなと探していて、見つけたのがAIだったのです。SNSやニュースで機械学習という言葉を目にして、どうやらブームになっているようだと感じたのがきっかけでした。これまでAIを触ったことは一度もありませんでしたが、AIについて調べてみると、初心者向けの解説記事や、無料のeラーニング等の学習教材が簡単に見つかり、初心者にも間口が広そうと感じられたので、少しずつ学習を進めていきました。 AIを学ぶに至ったのには、もうひとつ理由があります。医学の世界も、PCが普及し電子カルテが登場したように進化を続けています。こうした背景からすると、いずれは医学の世界でもAIが日常的に活用される日がきっと来るだろう。だったら今のうちから学んでおいても損することなど何一つない。こうした自分なりの医学の今後への見立てもあり、躊躇することなくAIの世界に足を踏み入れました。

[050]Winners-Interview-1

壁にぶつかっても、それを乗り越える過程を楽しめた。

初心者として趣味のような形で始めたので、正直なところAI学習にあまりお金をかけたくないという気持ちはありました。先ほど話した通り、無料の学習コンテンツもたくさんありますし、それで十分だろうと。そこで、インターネット上の記事などを読みながらpythonの使い方や、プログラミングの基礎から学び始めました。AI活用の実現可否や、モデル構築のアプローチなど、AIに関するアウトラインが掴めたと思っていた頃に、東京大学の松尾研究室が提供している無料のデータサイエンティスト育成講座を見つけたので、それにも参加してみることにしました。 この講座で、初めてコンペティションに参加しました。講座内の小さなクローズドコンペティションでしたが、それでも順位がつく形で周りと競い合うのは楽しかったです。まだまだ初心者だったので、当然分からないこともたくさんありましたが、インターネットで調べれば、同じようなところでつまずいている方の記事にヒットします。そうした情報や、過去の似たテーマのコンペティションでの解法を参考にしながら修正してみる。するとうまくいって、順位も上がる。壁にぶつかっても、それを乗り越える過程を楽しめている自分がいました。 講座内のコンペティションや課題を通して知識を積み重ねるうちに、腕試しをしてみたいと思うようになっていきました。AIを学ぶ過程でSIGNATEやKaggleなどのいくつかのコンペサイトの存在は知っていたので、私が参加できるようなコンペがあるのか、SIGNATEのサイトを見に行ったところ、ちょうど学生限定のコンペ「SIGNATE Student Cup」が開催されているところでした。提供データも初心者として扱いやすいテーブルデータだったこともあり、これは次のステップにちょうどいいと思い、参加を決めました。

[050]Winners-Interview-2

独力では突破できないなら、できる人に力を借りる。

これなら自分でも、と思って参加したコンペではありますが、データを見てみると難しいポイントが次々に見つかりました。抽象的なカラムが多かったり、数字のデータばかりでカテゴリのデータがなかったり。どうやって精度を出すかが分からず、まずは音楽についての知識がなくても使えるような、一般的なテーブルデータの処理に使われる手法をいくつか試してみました。しかし、特徴量が見いだせず、ベースラインを組むことにも難儀して、序盤で既に挫折しかけていました。 藁にもすがる思いでフォーラムを覗いてみると、他の参加者の方が精度が出ているベースラインを投稿していました。深く感謝しながら、そちらを流用することにしました。今回採用させてもらったベースラインの他にも、多くの参加者の方が独自の工夫やアイデアをフォーラムに投稿していたので、眺めているだけでもかなり勉強になりました。こうした、他の方の知見を吸収できるという点も、コンペティションに参加するメリットの一つだと思います。

[050]Winners-Interview-3

次は、学生限定ではないコンペティションでも結果を残せたら。

ベースラインを流用させていただいた後は、Pseudo Labelingを用いて、擬似的に訓練データを増やす等、自分なりの工夫を加えながら少しずつ精度を上げていきました。他にも、特徴量間で加減乗除を行って新たな特徴量を作成しました。その際に、あまり特徴量を増やしすぎると逆に悪影響が出たため、Null importanceを利用して取捨選択するなどの工夫も施していて、それも精度向上に寄与したと思っています。 これらの工夫のおかげもあって2位に入賞でき、満足のいく結果を残すことができました。ただ、他の入賞者の方の解法を見てみると、1位と3位の方はMLPを使用していたんですよね。私はTabNetを用いて精度を出しましたが、MLPもアンサンブルには使えたかもしれない。まだまだ工夫できるところがあったなという反省点もあります。他にも、アンサンブルで幾何平均を使っていた方がいたのも印象的でした。今回私は算術平均を用いたので、機会があれば私も幾何平均を使ってみたいと思っています。 AI学習のネクストステップに位置付けて臨んだ今回のコンペティション。そこで一応結果を出すことはできたので、次は学生限定ではないコンペティションにも参加して上位入賞を果たせるよう、今後も精進していきたいです。

[050]Winners-Interview-4

今後の目標

学生限定のコンペティションだけでなく、社会人とも競うようなコンペティションでも成果を出せるように、知識の幅を広げていくのが今の目標です。機械学習だけでなく、深層学習や自然言語処理、画像データの扱い等も覚えていきたいですね。そしていつか、医学の世界でAIを使った便利なソリューションを提供できたらいいなと思っています。 <株式会社SIGNATE主催「SIGNATE Student Cup 2021春:楽曲のジャンル推定チャレンジ!!」の入賞者レポートはこちら>

この記事をシェアする