投稿方法
通常の予測結果ファイルの代わりに、学習済みモデルと推論部分のソースコードを投稿します。投稿すると、自動で予測結果ファイルの作成・推論速度と認識精度の評価が行われます。投稿ファイルの作成方法については、配布データのreadme.mdを参照してください。
※ソースコードの実行を伴うため、評価結果がリーダーボードに反映されるまで時間がかかります。
サイズ・推論速度の評価
投稿ファイル(ソースコードと学習済みモデルをまとめたもの)のサイズと推論時間は、以下の流れに従って評価されます。
1. 投稿ファイルのサイズが閾値の2GBを超える場合は、評価の対象外となります。
2. 投稿ファイルは解凍された後、ソースコード(と学習済みモデル)が以下の環境で実行され、推論時間と精度が測定されます。
- OS: Debian GNU/Linux 11 (bullseye)
- GPU: Tesla T4
- CUDA: Version 11.3.1
※ 実行環境のDocker imageはこちらを、Dockerfileはこちらを参照ください。
3. 推論時間の閾値を5[秒/画像]とし、閾値を超える場合は、評価はされますが順位は付きません。(リーダーボードには順位"-"で表示)
※学習済みモデルの読み込みを含めて、全体で3時間以上かかる場合はエラーとなり、評価の対象外となります。
4. 投稿ファイルのサイズと推論時間が閾値をクリアした場合のみ、予測結果の認識精度を元に順位が決定されます。(リーダーボードに表示される推論時間の単位は、[秒/画像])
認識精度の評価方法
精度に対する評価値は"F1Score"を用いて算出します。
これは0~1の間の値をとり、大きいほど高精度となります。
例えば、正解の文字列が
"こんにちは"
で、予測された文字列が
"にこんはち"
だったとします。正解の文字列に対して挿入と削除を繰り返して予測された文字列になるように編集を加えます。このとき、まず正解の文字列の先頭に"に"を挿入し、"ん"の次の"に"を削除し、"ち"の前に"は"を挿入して、最後の"は"を削除することで、予測された文字列"にこんはち"となります。
正解の文字列に対して削除された文字("に"と"は")を正解の中で認識できなかった文字とし、その数をFNとします(この例の場合は2)。削除されずに残った文字数を正しく認識できた文字数とし、TPとします(この例の場合は3)。予測された文字列の中で正しく認識できた文字を除いた文字を予測の中で正しく認識できなかった文字とし、その数をFPとします(この例の場合は2)。よって"F1Score"は0.6となります。
※配布するデータのevaluation.zipの中身も確認してください。
最終順位の決定
1.コンペ最終日までの評価(暫定評価)は評価用データセットの一部で評価し、コンペ終了後の評価(最終評価)は評価用データセットの残りの部分で評価します。
リーダーボードはコンテスト終了時に自動的に最終評価に切り替わり、それを元に最終順位を決定します。このため、開催中と終了後では順位が大きく変動する場合もあります。
2.スコアが同値の場合は、早い日時でご応募いただいた参加者を上位とします。
3.最終順位が上位の方を入賞候補者とし、事務局から連絡いたします。
4.入賞候補者には以下を提出していただきます。
・学習や前処理など、応募時に投稿した推論部分を除いた部分のソースコード
・ソースコードの説明書(前処理部分、学習部分、推論部分が分かるように明記。提供データ以外のデータや、学習済モデルを利用した場合は、そのソース(データの所在、論文のリンク等)も明記)
・実行環境(OSのバージョン、使用ソフトウェア及び解析手法)
・データの解釈、工夫点、モデリングから得られる示唆等
5.再現性検証期間中、入賞候補者及び、その提出モデルが下記いずれかに該当する場合は入賞の資格を失います。
・事務局からの手続き上の連絡・要求に対して指定された期限内に対応しない
・参加条件やルールを満たしていない
・プログラムが動作しない
・その他、事務局が不当と判断した場合
6.再現性を確認できた方から入賞者を選定します。