2023年9月19日、SIGNATE主催「SIGNATE Career Up Challenge 2023」の表彰式をオンラインで実施しました。今回のテーマは、中古車の価格予測をするモデリング部門と、協賛企業の課題に対するChatGPTを活用したソリューションの提案をするChatGPT部門の2部門で行われました。表彰式当日は、予測部門上位5チームとChatGPT部門の各賞が表彰され、入賞者による解法プレゼンテーションも行われました。 また、協賛企業である株式会社テクノプロ テクノプロ・デザイン社様、旭化成株式会社様、株式会社ブリヂストン様、ソニーグループ株式会社様の採用担当者にもご登壇いただき、求人情報の説明がありました。 本記事では、イベントレポートとして一部を抜粋してお届けいたします。


▼動画はコチラ▼

主催者あいさつ


株式会社SIGNATE 代表取締役社長 齊藤 秀 「社会人向けのキャリアアップの取り組みは今回初めてとなりますが、多くの方にご参加いただきありがとうございました。また本イベントを支えていただいた企業の皆さまに感謝申し上げます。生成AIの技術はすごい勢いで進化していて、企業の成長においてAIが欠かせないものになっていると感じています。そういった意味で、今回の取り組みはAIの重要性をご理解いただいているデータサイエンティストの方々、データサイエンスを志向されている技術者の方々、経営におけるこの技術のインパクトを理解されている企業の皆様が出会う重要な機会になると考えております」 次に協賛企業から会社紹介と求人情報の説明、SIGNATEからコンペティションの概要説明があり、入賞者の発表、プレゼンテーションへと続きました。

入賞者の発表


入賞者の表彰と解法プレゼンテーション、まずはモデリング部門からです。

モデリング部門 精度賞 第3位:s4s4k1s 第2位:team_challenge 第1位:imlost

モデリング部門 精度賞 第3位

s4s4k1s氏

1-event-cuc2023award

「最終的な提出モデルはスタッキングという手法を使いました。一段目はベースラインと同じような構成で、LightGBM、TabNet、AutoInt、Cat.Emb.のモデルを使いました。前処理済みのデータからカテゴリ変数を変換して各モデルで学習と予測を行った結果、trainとtestに対する予測値としてoofとpredectionを得ています。 oofについてですが、クロスバリデーションで学習に用いていないtrainデータに対する予測値を全fold分集めるとtrainに対する予測結果を得ることができ、それを二段目で使っています。 二段目では、一段目で得られた24個の予測値を特徴量として、priceを目的変数にして、TabNetで学習と予測を行っています。二通り試して、一つ目はクロスバリデーション、二つ目はクロスバリデーションせずoof全部を学習に用いました。通常は推奨されないのですが、今回はtrainとtestデータがよく似ていることや、この予測値はなかなか過学習しづらそうな傾向があると読んで、うまく学習が進むことを願いながらCVをしない方法も試してみました。結果として、CVしたもの、CVしていないものを最終サブミッションとして、後者の方がスコアが良く入賞することができました。」 発表後には、下記のような質問が寄せられていました。 Q:目的変数の分布に複数の山があったと思いますが、何か具体的な対応はされましたか? A:私も分布の複数の山をモデルに取り込みたいと思っていました。例えば、価格の低いデータと高いデータでモデルを分けて学習予測できないか試しましたが、今回の検討ではうまくいきませんでした。 質疑応答に続いて、SIGNATEデータサイエンティストの谷津からs4s4k1s氏の解法に関する講評が行われました。 「LightGBMとニューラルネットワークを組み合わせた形が特徴的でした。カテゴリ変数が多いデータということで、エンコーディングが重要視されていて、複数のエンコーディングを使ったデータを色々用意してモデルを作っていくところも特徴的だったと思います。テーブルデータに強いTabNetもうまく使われていたと思います。」 続いて精度賞2位に入賞されたのは、team_challengeの皆さんです。解法についてご説明いただきました。

モデリング部門 精度賞 第2位

team_challenge

2-event-cuc2023award

「今回のコンペで工夫したポイントは4点あります。まず前処理の工夫ですが、カテゴリ変数が多く、最終的に木構造モデルを使うので、そこが学習しやすいように数値変換の方法を工夫したのと、データの名寄せも行いました。モデリングについての工夫は、ハイパーパラメータを変えて3モデル作ったこと、損失関数をMAPEにしたこと、目的変数の分布が特徴的だったためそこへ対応できるようなモデルを作ったことです。 データの前処理は、カテゴリ変数の変換とデータの調整を実施しました。14個ある説明変数のうち、製造年と走行距離のみ数値変数で、残りは全てカテゴリ変数だったのでカテゴリ変数の扱いが重要だと思い、木構造モデルが学習しやすいようにカテゴリ変数毎に目的変数の平均値が低い順にラベル付けを行っていきました。例えば州の平均価格を調べて、小さい方からラベル付けしていきました。データの調整については、フォーラムでの投稿を参考にさせていただきました。 モデリングについてですが、LightGBMを使い、GBDTやDARTなどハイパーパラメータの違う3つのモデルを作り、これらの平均値を最終結果として提出しました。3つのモデルの構造ですが、5-foldクロスバリデーション毎に、価格が低いか、中くらいか、高いかを判定をするモデルを作り、価格が低いと判定されたものには、低価格用の価格予測モデルを当て、価格が高いと判定されたものには高価格用の価格予測モデルを当てる、スタッキングのようなことをしました。」 発表後には、下記のような質問が寄せられていました。 Q:MAPEをLightGBMでどのように実装したのでしょうか? A:最新のLightGBMには、MAPEが損失関数として実装されています。例えば、XGboostとかですと実装されていないので、自分で行う必要があります。GPT4に聞きながらやってみましたが、うまくいきませんでした。 質疑応答に続いて、SIGNATEデータサイエンティストの谷津から講評が行われました。 「GoogleColabで実装していただき、手順も細かく設定していただき、非常に見やすくわかりやすかったです。基本に沿って、精度を出していただいたのかなと思っております。実は学生側のコンペティションと手法がよく似ていて、かつ学生向けよりも精度が高く、基本が大事だなと思わせられるようなコードでした。価格帯によってモデルを変えるアイデアも勉強になりました。ありがとうございました。」 続いて、モデリング部門優勝に輝いたのは、imlost氏です。自身の解法について、ご説明いただきました。

モデリング部門 精度賞 第1位

imlost

3-event-cuc2023award

「個人的に効いたと思う仮説は、多峰性分布への対応です。今回3つの山があったのですが、そこへの対応と、特徴量エンジニアリングで精度を上げるよりは、パイプライン全体で分布の多様性をつけようという方針が良かったのかなと思っております。改善点としては、post-processの変換法では汎化性能が担保されていないので、十分なデータ量を持つことや、IDSのパラメータ探索時は検証プロセスも入れるなどが挙げられます。最後にどのようにスコアが上昇していったのかについて着目して説明します。スコア0.66くらいで、50を切れずに停滞していた方はLightGBMやモデルのオブジェクティブの損失関数をMAPEじゃなくて、レギュレーションでやっていたことが問題かと思われます。スコア44以降はかなり接戦だったと思うのですが、決め手の一つは分類木を足したことです。スタッキングの一層目を足したことでスコアが上昇し、ターゲットサンプリングができ多様性のあるスタッキングができたことが一つと、最後に後処理で説明性を失う代わりにスコアを追い求める感じでアンサンブルを行いスコアを向上させました。」 発表後には、下記のような質問が寄せられていました。 Q:ターゲットエンコーディングとラベルエンコーディングの使い分けの基準は? A:明確に順序尺度が考察できるであろうものはラベルエンコーディングを利用して、水準数、つまりユニーク数が多いものに関してはターゲットエンコーディングを使用しました。 質疑応答に続いて、SIGNATEデータサイエンティストの谷津から講評が行われました。 「特徴としてはautoMLを使っているところと、後処理でキャリブレーション、Affine変換が行われている点です。他にも、多くは予測結果が出てそのまま投稿する、それ以前での改善に力を入れることが多いかと思うのですが、後処理まで丁寧に考察されていました。また、すぐに前処理をするのではなく、目的変数や評価指標の特徴をしっかり考察したうえで分析に進んでいるところも丁寧な進め方だと思いました。」 以上で、モデリング部門のプレゼンテーションが終わり、続いてChatGPT部門の発表に移りました。 ChatGPT部門 SIGNATE賞:鈴木 悠斗 株式会社ブリヂストン賞:DopeDateWorks 旭化成株式会社賞および株式会社テクノプロ テクノプロ・デザイン社賞は厳粛に審査をした結果、今回は該当者なしという結果になりました。 ChatGPT部門入賞者を代表して、SIGNATE賞に輝いた鈴木 悠斗氏にプレゼンテーションをしていただきました。

ChatGPT部門SIGNATE賞

鈴木 悠斗

4-event-cuc2023award

「今回は、株式会社ブリヂストン様へ「インフィニティ・タイヤ・パートナー」という提案をしました。ソリューションとしては、BtoCサービスの展開において質の高いCXを提供することが非常に重要だと考え、自身の経験も踏まえ既存アプリにChatGPTを導入することで、店舗に相談した方がいいか迷う些細な相談が可能になるサービスを考案しました。既存アプリの想定ダウンロード数や、タイヤ販売シェア率などから、店舗で発生していた工数の削減時間も予想しました。 今年の3月にもChatGPTのコンペがありまして順位的に非常に悔しい思いをしたので、今回は忘れ物を取りに来た気持ちで応募させていただきました。」 発表後には、下記のような質問が寄せられていました。 Q:自身の経験から課題を特定されたのですか? A:実際本当に課題になっていたのかはわからないのですが、ChatGPTはチャットベースで物事を解決できるのが大きなメリットだと思います。Q&Aやコールセンターなどで使われやすいと思うのですが、ブリヂストンさんの場合どこで活用できるかなと考えたときに、自身の体験から得た発想と元にしました。 質疑応答に続いて、ゲスト審査員のからあげ氏から講評が行われました。 「ChatGPTの持つ機能を、上手く既存のサービスに盛り込んだ非常に素晴らしい提案でした。些細な相談でも聞くのはちょっと前までは人間にしかできないことでした。ChatGPTの特性を非常に上手く使って設計されているなと感じました。」 以上で、全ての解法プレゼンテーションが終わり、表彰式は終了しました。

まとめ


学生向けコンペティション「SIGNATE Student Cup」と同時で、また初めての実施となった社会人向け合同採用コンペティション「SIGNATE Career Up Challenge」でしたが、2部門あわせて1,038人の方にご参加いただき、投稿数1万件以上となるなど大きな盛り上がりを見せたコンペティションとなりました。 初の試みとなったChatGPT部門に関しても想定以上の方に参加していただき、興味関心の高さを感じました。入賞したソリューションも、自身の体験に基づくもので、実際に使用するイメージが湧いてくるとても具体的な提案でした。 今後、生成AI関連のコンペティションの開催が増えることで、様々なアイデアや技術の活用方法について、SIGNATE上で活発に議論が交わされることを期待しています。 <SIGNATE Career Up Challenge2023「中古車の価格予測チャレンジ」モデリング部門の入賞者レポートはこちら> <SIGNATE Career Up Challenge2023 ChatGPT部門の入賞者レポートはこちら>

この記事をシェアする