※参加にあたっては
SIGNATE Campus」に予めご登録をお願いいたします。

お知らせ(2021.10.11):
フォーラム活動賞、Web記事賞に関する説明を追加しました。詳細は各部門の「評価方法」ページをご参照下さい。

お知らせ(2021.10.26):
アフターイベント第一部(入賞者プレゼン含む)の参加受付を開始いたしました。入賞者の解法プレゼンが聞ける貴重な機会ですので、下記リンクより是非皆様お申し込み下さい!!

【アフターイベント第一部の参加申し込みはこちら】



▼背景

都市部でシェアサイクルサービスを展開しているA社では、各ステーションの自転車数に過不足が生じないように、夜間に自転車の再配備を行うという対策を講じています。
しかし、どのステーションで自転車が不足するか?どのステーションで何台くらい自転車が余っているか?はオペレータの経験に基づき判断を行っているため、予想した自転車数と実際の状況には乖離が生じています。
そこで今回のタスクでは、オペレーション改善に向けて、より正確に自転車数を予測する機械学習モデルの構築にチャレンジして頂きます。


▼タスク説明

各ステーションで記録された自転車の台数状況、サービス利用者の移動履歴、ステーション情報(所在地や最大駐輪数)、および気象情報をもとに、特定の日時・ステーションにおける利用可能な自転車数の予測にチャレンジして頂きます。



データ概要

・配布データには下記4種類のデータが含まれます。
・目的変数である「利用可能な自転車数」は、自転車の台数状況データ(status.csv)に含まれます。
・その他、データ項目の詳細は「データ」ページをご参照ください。

データ種別 概要
自転車の台数状況データ(status.csv) 各サイクルステーションで1時間ごとに記録された利用可能な自転車数(目的変数)の履歴データ
※予測対象日時、および予測対象外の日時の記録が含まれる
※predict=1の日時が予測対象、predict=0の日時は予測対象外
利用者の移動履歴データ(trip.csv)
利用者がシェアサイクルで移動した時間、起点駅、終点駅を記録した移動履歴データ
ステーション情報(station.csv)
サイクルステーションの緯度・経度、ドック数(最大で停められる自転車数)、設置日のデータ
気象情報(weather.csv)
都市中心部における1日ごとの気象予報データ(0時時点の予報データ)



予測対象日、予測対象時間のイメージ

・自転車の台数状況データ(status.csv)には、2013年9月~2015年8月まで(2年分)の予測対象日時と予測対象外となる日時の両方の台数状況が記録されています。
・予測対象となるのは、2014年9月~2015年8月までの1年分の期間で各月から10日ずつ選ばれた予測対象日の「1時~23時(1時間ごと)」の自転車台数です。
・予測対象日の0時は予測対象外であり、0時時点の台数は開示されています。
・また、予測対象日の翌日(24時間分)の台数状況は欠損値となっています。


データの利用、モデリングに関する注意点

・ある時点で予測を行う際には、その時点以前に確定している情報のみを使用して予測を行ってください。
 すなわち今回の課題では、ある予測対象日の1~23時の予測を行う際に「予測対象日の0時時点までの情報」を使用して予測を行ってください。
・移動履歴データ(trip.csv)や気象情報(weather.csv)についても同様に、予測対象日の0時時点までの情報が使用可能です。
・その他コンペのルールに関しては、「ルール」ページをご参照ください。


▼評価関数

・精度評価は、評価関数「RMSE」を使用します。
・評価値は0以上の値をとり、精度が高いほど小さい値となります。



▼最終順位の決定

1.コンペ最終日までの評価(暫定評価)は評価用データセットの一部で評価し、コンペ終了後の評価(最終評価)は評価用データセットの残りの部分で評価します。リーダーボードはコンテスト終了時に自動的に最終評価に切り替わり、それを元に最終順位を決定します。このため、開催中と終了後では順位が大きく変動する場合もあります。

2.スコアが同値の場合は、早い日時でご応募いただいた参加者を上位とします。

3.最終順位が上位の方を入賞候補者とし、事務局から連絡いたします。

4.入賞候補者には以下を提出していただきます。
 ・モデルのソースコード
 ・学習済モデル
 ・ソースコードの説明書(前処理部分、学習部分、推論部分が分かるように明記)
 ・提供データ以外のデータや、学習済モデルを利用した場合は、そのソース(データの所在、論文のリンク等)
 ・実行環境(OSのバージョン、使用ソフトウェア及び解析手法)
 ・データの解釈、工夫点、モデリングから得られる示唆等

5.再現性検証期間中、入賞候補者及び、その提出モデルが下記いずれかに該当する場合は入賞の資格を失います。
 ・事務局からの手続き上の連絡・要求に対して指定された期限内に対応しない
 ・参加条件やルールを満たしていない
 ・プログラムが動作しない
 ・学習済モデルから出力されるスコアと最終評価スコアが一致しない
 ・その他、事務局が不当と判断した場合

6.再現性を確認できた方から入賞者を選定します。


▼特別賞の授与

・本コンペでは、フォーラムで参加者間の知見共有に大きく貢献した方、および知見共有につながるWeb記事を執筆された方にフォーラムの投稿者、およびWeb記事を執筆された方にそれぞれ「フォーラム活動賞」と「Web記事賞」を授与致します。
・フォーラム活動賞は、ディスカッションランキングと投稿内容を総合的に判断し、事務局にて授与対象者を決定いたします。
・Web記事賞は、フォーラムの[事務局より] Web記事投稿用スレッドに投稿頂いた中から、リンク先の内容を事務局にて確認し授与対象者を決定いたします。
・表彰対象者数は、予測部門とアイデア部門の両部門の投稿の中から、各賞で最大3名ずつとします。
・表彰対象となる投稿は、11/2(火)23:59 までに投稿頂いた中から決定させていただきますので予めご留意下さい。

賞名 表彰対象者 人数 賞品
 フォーラム活動賞 フォーラムにて他の参加者の疑問解決や知見共有に貢献した方(個人)最大3名Amazonギフト券
1万円分
 Web記事賞 他の参加者への知見共有の効果が特に見込めるコンテンツ(qiitaやblog記事等)をweb上で公開された方(個人)最大3名Amazonギフト券
1万円分

▼参加の前提

・Student Cupは、学生同士が学び合い、今後のキャリア形成やスキルアップの場として活用して頂くことを主目的としております。
・コンペの目的をご理解の上、データの加工方法や特徴量の設計方法、あるいはデータの可視化など、学生の皆様が知恵を出し合いながら議論を深めることを期待しております。
・チート行為やルールを無視した方法による参加は認められません。
・また、他者に対する誹謗中傷や公序良俗に反する行為を禁止します。事務局が悪質と判断したケースにおいては、入賞資格や会員資格の剥奪の可能性があることをを予めご了承のうえご参加ください。

▼システムの利用

・予測部門、アイデア部門ともに、個人またはチームでの参加が可能です。
・個人で参加する場合は、1人につき1アカウントのみ利用可能です。
・チームで参加する場合は、1チームあたり最大5人、2021/10/15(金)までチーム作成が可能です(チーム作成方法はこちら)。
・1日の投稿上限回数は5回/日とします。

▼モデルの構築

・コンペで提供されたフォーマットによる新規データを入力した場合、自動で予測結果が出力されるモデルのみが評価対象となります。
・追加費用を伴わない(有償の外部API等を使用しない)環境下で手法が再現することができ、かつ継続使用が可能な実装をお願いします。

▼ツールの利用

・ツールや学習済みモデルの利用は、オープンかつ無料なもの(python, tensorflow 等)に限定します。

▼データの利用

・ある時点において予測を行う場合、その時点以前に確定している情報のみ使用が可能です。すなわち今回の課題では、それぞれの予測対象日の0時時点までに確定している情報を使用して予測を行ってください。
・オープンかつ無料で利用可能なものであれば、自ら取得した外部データを学習や予測に使用することが可能です。ただし、本コンペの目的変数に相当するデータを利用して学習・予測を行う行為は禁止です。
・外部データを使用される場合も、予測時点以前(予測対象日の0時時点まで)に確定している情報のみが使用可能であることに十分注意してください。


▼実装方法

・前処理、学習、予測、の3つにコードを分け実装してください。

 ①Preprocessing「前処理」
  提供データを読み込み、前処理を施し、モデルに入力が可能な状態に変換するモジュール。
  get_train_dataやget_test_dataのように、学習用と評価用を分けて、前処理を行う関数を定義してください。

 ②Learning「学習」
  ①の出力を読み込み、モデルを学習し、学習済みモデルを出力するモジュール。
  学習済みモデルや特徴量、クロスバリデーションの評価結果を出力する関数も定義してください。

 ③Predicting「予測」
  ①で作成した評価要データ及び②で作成した学習済みモデルを読み込み、予測結果を出力するモジュール。

Disclosure policy

As a general rule, in accordance with Article 4, Paragraph 1 of the terms of participation, diclosing any contents such as insights and deliverables transmitted through the information or data provided by our company in relation to this competition is not permitted, however, only after the completion of this competition and for non-commercial purposes, it will be possible to disclose the contents within the score of the table below
Model *1
Public
Analysis results *2
Public
Public : Posting to social media sites, blogs and source repositories, and citing to papers
Restricted : Using in a limited range from research, education to seminars, where many unspecified people cannot access
*1 Execution unit source code and learned models
*2 The insights obtained using the information and data provided, or the solutions including scripts and processed data such as summary statistics

▼本コンペ特約事項
株式会社SIGNATE(以下、「主催者」といいます。)は、データ活用を武器に社会で活躍していこうと志す学生に対し、キャリア意識の醸成及び協賛企業との交流機会を提供することを目的に、Student Cup 2021秋(以下、「本コンペティション」といいます。)を開催いたします。これに伴い、主催者から参加者に対して、アフターイベントのご案内や協賛企業のインターンシップ・新卒採用に関する情報提供、又はオファーに関する連絡がなされる場合があります。
また、本コンペティションにおいて、SIGNATEコンペティション参加規約第3条の「権利譲渡対象者」は主催者とします。但し、参加者が、自身で開発したアルゴリズム及びその他本コンペティションへの参加に関連して作成した資料等(最終提出物及び最終審査用提出物を含みます。)を自身のSNSやブログ等で公開することについては、公開時に本コンペティションへの参加に関連して作成したものであることを明記する場合においては、何ら制限しません。