2022年6月1日〜2022年7月24日にかけて、テクノプロ・デザイン社主催「飛行機の航空経路の推定チャレンジ〜CARATS航空経路データを用いたウェイポイントの推定~」コンペティションが開催された。タスクは、飛行機の通り道である「航空路」にあるウェイポイントと呼ばれる位置座標の日本国内の現在の位置と、過去の飛行実績データを元に、過去のウェイポイントの推定にチャレンジするというものだ。コンペティションは、「一般の部」「学生の部」の2部門制で、総勢631人、2,362件の投稿が寄せられた。 今回のコンペティション「一般の部」で優勝に輝いたのは、Kazuhiro.Oさん。主催者の株式会社テクノプロ テクノプロ・デザイン社の中井 克典さんも交え、Kazuhiro.Oさんが本コンペティション参加に至ったきっかけや、優勝への道筋、今後のコンペティションへの取り組みなどを伺った。
▼【youtube】航空経路の推定チャレンジコンペティション-一般の部上位入賞発表▼
与えられたデータだけでなく自らも情報を取得
中井氏「まずは今回のコンペティションに参加したきっかけをお聞きできますでしょうか」 Kazuhiro.O氏「SIGNATEのコンペティションに参加したのはこれが2回目です。今回のテーマは自分にとって身近なテーマで面白そうだなと思い参加を決めました。地図を使った分析というのが理由の一つなのですが、業務で地図を活用していたので、これだったら他の人より少しでもアドバンテージになるかもしれない、強みにできそうだと思ったことです。もう一つは父親が気象関係の仕事をしており、飛行機の運航との関係性について少し話を聞くことができました。そういった知見を持つ人にヒアリングすることで、ハードルを下げることができたので参加してみようかなと取り組みを始めました。」 中井氏「元々ドメイン知識を少しお持ちだったということですね。審査発表の入賞者プレゼンのときも、かなり詳しいなと思って話を聞いていました。お仕事で地図を扱われているということですが、地図や図面の可視化は普段からされているのですか?」 Kazuhiro.O氏「GISデータを使って、2点間の関係性をどう数字に落とせるかという形で分析したりしています。今回はデータ形式で取り組みやすかったのですが、緯度経度におけるGISを使った可視化には慣れていたので、割と早く要点を掴めたと思っています。」 中井氏「なるほど、そういうバックグラウンドがあったのですね。テーブルや画像コンペに比べ、位置情報、地図データのコンペは多くないと思います。我々も色々な業務に対して取り組まなければならないのですが、必ずしも画像のプロフェッショナルだけではやっぱり仕事になりません。そういった点を意識してコンペの内容を設定しました。 データを見るところでは苦労されなかったのかなと思う一方で、今回のコンペティションで苦労されたのはどんなところでしたか?」 Kazuhiro.O氏「苦労というか一番悩んだポイントが、今回の課題をどう捉えるかというところでした。出ているウェイポイントを1個1個見ていき、ここだろう、ここだろうという作業をするか、でも結局今回は使えても今後は使えない。仕事の観点で取り組むと、1個1個見てもあまり意味はなく、むしろ法則性を見つけ出すなど、どういうデータから導き出せばいいかを考えることが重要視されると思いました。最後までどちらがよいのか、悩みながら進めていました。」 中井氏「素晴らしいなと思うのは、そういった「後で使える」という視点ですね。コンペの解き方をするという戦略もあると思うのですが、それはそれで大事なコンペの勝ち方だと思います。わたしも、そういう方法でコンペに通ったこともありますし。なので、汎用性というところまで考えてコンペに取り組み、なおかつ良い成績を取られているのは素晴らしいと思います。 実際に分析をするのは、数字がどうこうというよりも「どれだけ顧客に納得してもらえるか」「理解をしてもらえるか」「そのやり方が他でも適用できるのか」を説明しなければならないですし、説明できなければ「敢えて簡易的なモデルにする」とか「特別なモデルを使わない」という解もあると思っています。」 Kazuhiro.O氏「そうですね。顧客や社内に必ず最終的に説明する、ということを念頭に入れながら分析しています。」 中井氏「そうじゃないと独りよがりになってしまいますよね。私はもともと研究職でしたので、論理が通っていて自分が納得すれば「よし、楽しかった」で終わるのですが、受託の場合は顧客がちゃんと納得していただけるようになっているかという、少し引いた目で見ることが大事だと思っています。」
たくさんのミスや失敗を積み重ねて辿り着く
中井氏「今回のコンペティションで入賞できたと思う理由について、少し話を深掘りさせていただければと思います。何が一番のポイント、他の人との差別化になったとお考えですか。」 Kazuhiro.O氏「一つは先ほどお話した汎用性について。もう一つは、上位にならなければ発表の場も与えられないという条件でしたので、スコアも意識しました。結局フライトプランの情報は自分だけが見つけていたようで、これを使うという発想ができたのが大きかったと思っています。」 中井氏「フライトプランの情報は、ウェイポイントの話の中では全然出てこなくて、データセットから読み取れるようになっていました。ある地点と地点を通過しているという情報があり、地点から予測がついて場所がわかるものがあります。そうすると、きっと「ここと、ここと、名前はないけどこれ」「ここからここの間」と予測できるのですが、そこに気づけるかどうか。データ全体を見たり、他に使えるものがないか探したり、そういったところに気づかれたというのは非常に素晴らしいなと思いました。」 Kazuhiro.O氏「一つお聞きしたかったのですが、提供データの中に、この辺りの天気が悪かったなどのレーダー情報があったと思うのですが、どう使えばいいか最後までわかりませんでした。」 中井氏「レーダー情報ですね、使うとしたら前処理で使えるかなと思っていました。天気が悪いので方向性を変えた、雲があるので避けたとか、異常なデータがあった場合にはそれを除外するという使い方ができるかなと想像していました。ただ、公開されているデータそのままで、余計なものもたくさん入っているので、その中からどれが必要なのか判断は必要でした。Kazuhiro.Oさんは、フライトプランの情報を見つけるまで、やはり色々な試行錯誤をされましたか?」 Kazuhiro.O氏「はい、フライトプランは最後の数週間で見つけました。まず、2000くらいあったポイントのうち、名称から推測できるものを排除すると残るのが約300ポイント。そこから、ご当地情報などから名前が似ているものを予測していきました。名前が似ていると言っても何が似ていると判断するかで悩みましたが、まずはそのあたりに取り組みました。そのあとフライトプランの情報を思いつきました。」 中井氏「データサイエンスの方はよくわかると思いますが、人間は「似ている」と簡単に言うのですが、その似ているって何?というのを定義するのがすごく難しいですよね。例えば距離の場合も何をもって近いとするか、ここの設定がデータサイエンスの醍醐味だったりします。今回はどのように考えられましたか?」 Kazuhiro.O氏「私は、逆に略称を全て作りにいきました。名前が一つあったら、略称を考えられるだけ色々なパターンで考え、その中で合致したものが正解というやり方をしました。正直、発表会でご報告した特徴は限られたもので、試した数でいえば、当たり前ですがその数倍試しました。ただ根気強くやるというのは、ある意味強みだったのかなと思っています。例えば、ご当地情報を用いても当てられなかったポイントに対しては、ウェイポイントがアルファベットの羅列なので、アルファベットをバラバラにして、1文字ずつAが多いエリアはどこかなどを調べたりしました。何の役にも立たなかったですけどね。」 中井氏「良いアプローチですよね。ウェイポイントの名前については、あえて名前が消えていたり、文字を短くしたりする。でも人間は短くなっても、文字1個2個消えても読めるし、意味が通じます。ということは、その言葉には意味があり、文字が削れてもそこには読めるだけの情報が入っている。例えば、子音の並びだけで詰めてみたとか、そういう形で「似ている」という特徴を抽出したところも一つのポイントになっていますね。 コンペの手法では、まずはLightGBMに突っ込んでみるという取り組み方をされる方も多いと思います。計算機の能力次第で順位が変わるというコンペも多いので、それよりはやはり我々人でないとできないこと、特徴量を考える、仕組みを考える、なぜそうなるのかを考えるというところが大事な気がします。我々が解法に辿り着くときも、色々なバリエーションを試したうえで最終的に「これがよかったです」と説明しますが、実際は、たくさんの試したミスや失敗作が死屍累々としているところに、答えがひょこっと出ているようなものです。アイデアをバンっと出してクレバーにやったのかな、と見えがちなのですが、実態はそんなにきれいなものではなく、たくさんの失敗の積み重ねの上で仕事をしています。」
これからのコンペティションに対して
Kazuhiro.O氏「今回のコンペは、珍しい部類のコンペだったと思います。どう問題に向き合い解けばいいかという本質的なところと、スコア評価。ただ、すごく実際の業務に近いコンペだったと思うので、そういったコンペが増えるといいなと思います。私は、モデル作りにおいては、コンペで優勝できるスキルはまだないと思っています。それでも仕事をする上で「自分の強みを生かした仕事の仕方ができている」と、自信の一つになったと思います。あと、やはりコンペ自体に優勝するのはすごくモチベーションが上がるので、引き続き頑張ってみたいです。」 中井氏「SIGNATEやKaggleなどコンペの世界は、どうしてもモデルのチューニングが上手い人が上位にくることもあると思います。ただ実務の世界では、モデルの精度が0.01上がったから何かが変わるわけではなく、それよりも問題が解決するのであれば、それに対していかに短い時間でとか、コスト少なくとか、プロセス少なくできることがわかったという点を求められます。あくまでも課題を解決することがやりたいことであって、分析やモデルを作るだけではなく、その先にどうやって価値やお金といったところに辿り着くのか、データサイエンティストを目指す方にはそういったところを意識していただきたいなと思っています。 データサイエンティストや、データを利活用する人たちが、本来求められているところだと思いますし、我々もまたそういう方たちを評価できるコンペティションを検討していきたいと思っています。」
<株式会社テクノプロ テクノプロ・デザイン社主催「飛行機の航空経路の推定チャレンジ」の詳細はこちら>