▼概要
・SIGNATE Student Cupは、SIGNATEが学生向けに提供する「SIGNATE Campus」の一環として、データサイエンススキルの学生No.1を決めるコンペティションイベントです。
・本コンペは、2021年10月に開催した「SIGNATE Student Cup 2021秋【予測部門】」のSOTAチャレンジとなります。(学生でなくてもご参加可能です)
▼背景
都市部でシェアサイクルサービスを展開しているA社では、各ステーションの自転車数に過不足が生じないように、夜間に自転車の再配備を行うという対策を講じています。
しかし、どのステーションで自転車が不足するか?どのステーションで何台くらい自転車が余っているか?はオペレータの経験に基づき判断を行っているため、予想した自転車数と実際の状況には乖離が生じています。
そこで今回のタスクでは、オペレーション改善に向けて、より正確に自転車数を予測する機械学習モデルの構築にチャレンジして頂きます。
▼タスク説明
各ステーションで記録された自転車の台数状況、サービス利用者の移動履歴、ステーション情報(所在地や最大駐輪数)、および気象情報をもとに、特定の日時・ステーションにおける利用可能な自転車数の予測にチャレンジして頂きます。
データ概要
・配布データには下記4種類のデータが含まれます。・目的変数である「利用可能な自転車数」は、自転車の台数状況データ(status.csv)に含まれます。
・その他、データ項目の詳細は「データ」ページをご参照ください。
データ種別 | 概要 |
自転車の台数状況データ(status.csv) | 各サイクルステーションで1時間ごとに記録された利用可能な自転車数(目的変数)の履歴データ ※予測対象日時、および予測対象外の日時の記録が含まれる ※predict=1の日時が予測対象、predict=0の日時は予測対象外 |
利用者の移動履歴データ(trip.csv) |
利用者がシェアサイクルで移動した時間、起点駅、終点駅を記録した移動履歴データ |
ステーション情報(station.csv) |
サイクルステーションの緯度・経度、ドック数(最大で停められる自転車数)、設置日のデータ |
気象情報(weather.csv) |
都市中心部における1日ごとの気象予報データ(0時時点の予報データ) |
予測対象日、予測対象時間のイメージ
・自転車の台数状況データ(status.csv)には、2013年9月~2015年8月まで(2年分)の予測対象日時と予測対象外となる日時の両方の台数状況が記録されています。
・予測対象となるのは、2014年9月~2015年8月までの1年分の期間で各月から10日ずつ選ばれた予測対象日の「1時~23時(1時間ごと)」の自転車台数です。
・予測対象日の0時は予測対象外であり、0時時点の台数は開示されています。
・また、予測対象日の翌日(24時間分)の台数状況は欠損値となっています。
データの利用、モデリングに関する注意点
・ある時点で予測を行う際には、その時点以前に確定している情報のみを使用して予測を行ってください。
すなわち今回の課題では、ある予測対象日の1~23時の予測を行う際に「予測対象日の0時時点までの情報」を使用して予測を行ってください。
・移動履歴データ(trip.csv)や気象情報(weather.csv)についても同様に、予測対象日の0時時点までの情報が使用可能です。
・その他コンペのルールに関しては、「ルール」ページをご参照ください。