株取引は金融機関などの機関投資家だけでなく、一般の人々も参加できるものも多く、身近な経済活動の1つと言うことができるでしょう。一方、この株取引は多様な思惑が交差する場となっているために、株価の予測は非常に難しい課題です。ここでは、こうした難しい株価の予測において、将来に株価が上がるか、あるいは下がるかといった推移を予測するモデルの構築にチャレンジしてみましょう。
なお、本練習問題で用意した株価のデータは、一定程度の予測が実現できるように特別に用意した人工的なデータとなっています。
本練習問題を活用して、SIGNATEでのデータ解析・モデル構築をぜひ体験して下さい。
データ概要
課題種別:分類
データ種別:多変量
学習データサンプル数:2026
説明変数の数:4
欠損値:無し
本練習問題では時系列の株価情報の前半を学習用データ、後半を評価用データとして割当てています。
さらに、評価用データにおいては、予測対象をデータからそのまま特定できてしまうことを防ぐため、一定期間ごとにデータを非公開として除外しています。この処理の結果として、6日分の公開データと、4日分の非公開データが交互に続く形式となっています。
予測対象は各6日分の公開データの最終日のカラム「Up」の値です。以下に示す通り、合計200日分の株価推移が投稿時の予測対象となっています。(実際の評価用データにはカラム「Up」はありませんが、ここでは説明のために描いています)