理系や文系といった専攻分野に関係なく、誰でも平等にスキルを競い合える機会の提供を目的として、SIGNATEが主催する学生向けコンペティション「SIGNATE Student Cup」。このコンペティションへの参加条件はたった一つ。SIGNATE Campus会員であることだけだ。制限や制約なく、思う存分自身のスキルを試し、学び合い競い合うことができる場となっている。 2018年の初開催以降、AIやデータサイエンスへの関心の高まりを受けて継続的に開催され、2021年は春と秋の2回開催となった。2022年10月1日から10月27日にかけて開催された「SIGNATE Student Cup 2021秋」のテーマは、シェアサイクルの利用予測。特定の日時・ステーションで利用可能な自転車数を予測する「予測部門」と、シェアサイクルサービスの課題抽出とその解決策の提案を行う「アイデア部門」の2部門で開催された。 このアイデア部門で栄えある優勝を手にしたのがチームmitsu56の2名。両名とも、大学院での研究ではAIを使用する機会がない中で、見事1位に輝いた。AIの知見豊富な参加者達を制して好成績を残せた理由はどこにあったのか。取り組みの過程をお話しいただいた。


▼動画はコチラ▼


学生限定かつ、アイデアで勝負できるというハードルの低さが参加の決め手。

4432_masa:私とayanogamiさんは研究室こそ違うものの、学科や専攻は同じ。学部生時代も同じ学部で、2人とも授業で機械学習の基礎的な部分は学びましたが、自分の手でモデルを組んだのは学部の卒業研究くらい。AIに関する知見が豊富とは言えない中でコンペティションに参加しました。 ayanogami:私から「参加してみない?」と声をかけました。大学院でKaggleに投稿されるプログラムを研究対象にしていることもあり、以前から実際に参加してみたいと思っていたのです。今回のコンペティションは学生限定でハードルも低く、アイデア部門に関してはAIの知見以外の部分でも勝負できると参加することにしました。 4432_masa:私もコンペティションはほぼ初参加でした。実は以前に参加登録をしたことはあったのですが、登録したのはいいもののなかなか手が進まず、そのときは一度も投稿できませんでした。リベンジも兼ねて、今回こそはという気持ちで臨みました。 ayanogami:データセットやタスクを確認した第一印象は「面白そう」でした。募集ページにも、問いを立てる力が重要と書かれていたように、アイデア部門はどのような課題を解決するかという部分から自分たちで決めることができる。どうデータを分析して、どんな課題を抽出しようかとワクワクしながら着手しました。 4432_masa:問いから考えられる部分もそうですが、データ自体にも面白さを感じました。人の移動に関する時系列データはこれまでに扱ったことがなかったので新鮮でした。実際に可視化することでデータの特徴がさらに見えてきて面白いと思いましたね。

-086-Winner s Interview-1

外部データとの連携は難しい。だからこそ差別化要因になると思った。

4432_masa:課題を設定するためにも、まずは用意されたデータの分析から始めました。そうは言っても、闇雲に分析するのも効率的ではないので、データに何か特徴がないか見てみることにしました。具体的には、月毎に分析したり、ラベルごとに分析したりといった形で、傾向を探っていきました。 ayanogami:私は、まずこのデータがどの都市のデータか知りたいと考えました。City1、City2といった形で都市名が匿名化されていたので、座標データを実際の地図上にプロットしてみました。すると、多くのステーションが偏在していたCity2がサンフランシスコ中央部と判明。観光客が利用することもあり、データ数も多かったのでCity2に着目して分析していくことにしました。 4432_masa:並行して、私の方では外部データとうまく接続できないかを模索していました。募集ページに、外部データとの結び付けも可能という記載がありましたが、実際に結びつけるのは難しいだろうと思っていたのです。だからこそ、接続できれば差別化要因になる。そこで接続するデータとして目をつけたのが、お金です。ビジネスに関するテーマである以上、お金は切っても切り離せない。それに、シェアサイクルはメンテナンスを始めとしたランニングコストがかかることもわかっていたので、そことうまく結びつけたいなと。

-086-Winner s Interview-2

コスト算出とデータ分析、異なる手法から同じ結論に辿り着いた。

ayanogami:City2を対象に基礎集計をする中で、バイクIDごとに大きな利用頻度の差があることに気が付きました。なぜ、これほど利用頻度に個体差があるんだろう。そう考えている中で、ユーザが自転車を選り好みしているのではないかと考えました。私自身、教習所に通っていて教習に使用するヘルメットを選り好みしていたことを思い出して、シェアサイクルでも同じようなことが起きているのではと思ったのです。 4432_masa:メンテナンスコストを洗い出すためにパンクや車体の汚れの修理費用を調べているときに、ayanogamiさんから利用頻度の話を聞いて、選り好みの理由として汚損が原因ではないかと考えました。そこで、利用頻度を均一化することで、汚損や消耗の度合いも均一化し、メンテナンスコストを削減するというアイデアを提案することにしました。 ayanogami:そこから、私は根拠となるデータの分析や作成を担当しました。まず、箱ヒゲ図を用いて利用頻度の高い自転車と低い自転車を定義。他にも、availableデータを分析することで利用頻度の低い自転車ほど最後まで残りやすい、つまり利用頻度が低い自転車ほど問題を抱えている可能性が高いという仮説を立てました。 4432_masa:私は、想定されるメンテナンスコストや施策実施後のコストメリットのシミュレーションを担当。汚損の修復費用も部位ごとに異なるため、各部位のメンテナンスコストを調べた上で、そのコスト×利用頻度の低い台数という形で費用を算出。加えて、提案自体のストーリー構築も私がメインで行いました。

-086-Winner s Interview-3

1位という結果に満足せず、反省点を活かして更なる成長を。

4432_masa:利用頻度の均一化を実現する具体案としては、ステーションIDと利用頻度を参考にした自転車の置換を提案しました。さらに、利⽤頻度が低い⾃転⾞に対して、汚損の可能性があるのでメンテナンスするようアラートを発信するアプリケーションも提案に盛り込みました。このアプリケーションに関しては、根拠が弱いこともあり提案書に入れて良かったのか最後まで不安でしたが、表彰式の講評でアプリケーションまで踏み込んだ提案をしたことも評価いただけて安心しました。 ayanogami:私も最後の最後まで不安でした。説を補強するデータや分析結果は共有したものの、それらを軸にしたストーリーの構成はほぼ4432_masaさんがほとんど担当してくださいました。しかも、投稿できたのは締め切り10分前。もっと私にもできることがあったのではという気持ちが残っていました。 4432_masa:本人はこう言っていますが、提案の中で用いた分析結果はほぼ全てayanogamiさんによるもの。それがなければこの提案は成り立たなかったので、感謝しています。裏を返せば、私が行った分析は提案には使えなかったということなので、分析の着眼点にはまだまだ工夫の余地がある。これは、次回以降の反省点にしたいと思っています。 ayanogami:1位を取ることはできましたが、私にも反省点はあります。精度が出なかったので提案には使っていないのですが、random forestを用いて汚損済の自転車を予測するモデルを作っていたのです。精度を出せていれば、さらに提案の説得力は増したはず。モデル構築の技術をもっと磨いていきたいですね。

-086-Winner s Interview-4

コンペティション参加を検討している方へのメッセージ

4432_masa:基本的に、参加することにデメリットはありません。仕事ではないので、成績が悪くても誰かから怒られるわけでもありませんから。そう考えれば、気楽に参加できるのではないでしょうか。それでも気が引けるという人は、参加する前提で最終投稿までのスケジュールだけ引いてみるのもおすすめです。いつまでに何をやればいいのかがクリアになるだけでも、参加への不安が和らぎますよ。 ayanogami:少しでも興味があるのであれば、まずは参加して投稿してみるのがおすすめです。どんなクオリティーでもいいから、とにかく投稿してみる。例え結果が良くなかったとしても、そこから大きな学びが得られるはず。コンペティションを活用して自分の現在地を知るくらいの気持ちで、一歩踏み出してみるといいと思います。 <株式会社SIGNATE主催「SIGNATE Student Cup 2021秋: オペレーション最適化に向けたシェアサイクルの利用予測【アイデア部門】」の入賞者レポートはこちら>

この記事をシェアする