お知らせ
  • 2023/11/24: 評価方法のページに、最終評価で使用するDockerイメージについての説明を掲載しました。
  • 2023/11/15: ベースラインの構築方法をYouTubeにて公開しました!動画はこちら


トップページへ

与えられた早押しクイズの問題文に対して、その解答を出力するシステムを構築していただきます。

クイズの問題は、下記のような形式で、問題文の位置 ( position ) が進むごとに1文字ずつ増える形で与えられます。すなわち、各問題について、問題文の長さを L としたとき、1文字目までの問題文、2文字目までの問題文、...、L 文字目までの問題文の計 L 件のJSONの項目が入力されます。

{"qid": "AIO04-0001", "position": 1, "question": "1"}
{"qid": "AIO04-0001", "position": 2, "question": "19"}
{"qid": "AIO04-0001", "position": 3, "question": "194"}
... 
{"qid": "AIO04-0001", "position": 44, "question": "1945年、ラテンアメリカの文学者として初めてノーベル文学賞を受賞した、チリの詩人は誰?"}

これらの項目の入力のそれぞれに対して、その時点の問題文に対して予測できた解答を出力していただきます。解答の確信度が十分でない場合は null を出力するものとします(問題文全文を見てから過去の position に遡って解答するのは NG です)。

{"qid": "AIO04-0001", "position": 1, "prediction": null}
{"qid": "AIO04-0001", "position": 2, "prediction": null}
...
{"qid": "AIO04-0001", "position": 30, "prediction": "○○○"}
...
{"qid": "AIO04-0001", "position": 44, "prediction": "○○○"}

予測した解答が正解であった場合、正解した時点の問題文の位置 ( position ) に応じたスコアが与えられ、問題文のより早い(= position の値が小さい)段階で正解を出力できるとより高いスコアが与えられます。ただし、null 以外の誤った解答を一定数出力した場合、その問題は無得点となります。テストデータのすべての問題に対してスコアを計算し、その合計を競います。

第4回コンペティションでは、システムの性能評価をリーダーボード(自動評価)と最終評価(人手評価)の2段階で行います。

リーダーボード(自動評価)

リーダーボードでは、リーダーボード用テストデータ(問題文のみ公開)に対するシステムの解答ファイルをアップロードしていただき、正誤判定を自動で行うことで評価を行います。

テストデータの各問題に対して、事前に用意された正解(いくつかの別解を含む)とシステムが予測した解答を比較し、記号などの正規化処理後の文字列が完全に一致すれば正解、一致しなければ不正解としてスコアを計算します(正規化処理については こちらのコード を参照してください)。

最終評価(人手評価)

最終評価では、構築したシステムのDockerイメージを提出していただき、最終評価用テストデータ(非公開)に対する推論を運営側で用意した計算機(評価サーバ)で実行することで評価を行います。

最終評価では、システムが予測した解答の正誤判定を人間の採点者が行います。これは、事前に用意された正解および別解ではカバーしきれないシステムの正答に対しても正しく評価を行うためです。

Dockerイメージは、下記の要件をすべて満たすAPIとして作成していただきます。

  1. イメージから構築されるコンテナ内に、システムの動作に必要なすべてのファイル(推論を行うモデル、推論で利用するデータ等)が含まれていること

    • コンテナ内からコンテナの外側にあるファイルをダウンロードすること等は不可とします(コンテナの起動時に外部との通信はすべて遮断される設定になっています)。
  2. コンテナの8000番ポートで、テストデータの問題文のHTTPリクエストを受け付けること

    • 評価サーバでは、起動したコンテナに対して、テストデータの問題文が下記のパラメータを持つGETリクエストとして送られます(リーダーボード用テストデータと同形式のデータが1行ずつ送られるイメージです)。
      • qid: 問題ID
      • position: クイズ問題の何文字目までの問題文が与えられているか
      • question: クイズ問題の position の位置までの部分文字列
  3. 問題文のリクエストに対して、システムが予測する解答をレスポンスとして返すこと

    • コンテナは、システムが予測する解答を下記JSON形式のレスポンスとして返すものとします(不要なキーと値の組は無視されます)。
    {"prediction": システムが予測する解答の文字列 または null}

評価サーバでは、起動したコンテナに対して、最終評価用テストデータの全ての問題文についてリクエストの送信とレスポンスの受信を繰り返し行います。レスポンスとして受信した解答を集約したものを、最終評価用テストデータ全体に対する解答とします。

※リクエストとして送信される問題文の順番はリーダーボード用テストデータと同様です。すなわち、1問目の1文字目までの問題文、1問目の2文字目までの問題文、...、最終問題の最後の文字までの問題文、という順番で与えられます。

Dockerイメージの提出は、リーダーボード評価期間終了後の一定期間内に1回行っていただきます。Dockerイメージの提出方法は、SIGNATEより参加者へ個別にお知らせします。

下記ベースラインシステムには、APIの作成方法およびDockerイメージの構築方法が含まれています。必要に応じて、実装の参考にしてください。


スコアの算出方法

テストデータに含まれる各問題について、下記の Accuracy ScorePosition Score の和をその問題のスコアとし、すべての問題に対するスコアの合計を評価対象とします。

  • Accuracy Score: 解答が正解であれば position にかかわらず 1.0点
  • Position Score: 正解を初めて出力した position k と元の問題文の長さ N に対して (1.0 - k / N) 点

ただし、1つの問題で誤答できるのは3回までで、正解を出力する前に null でない4種類以上の誤答を出力した場合、その問題は無得点とします。

以下に、スコア計算の例を示します。
  • 例1: 50文字の問題文に対して、10文字目で誤答を出力したあと30文字目で初めて正解を出力した場合
    • Accuracy Score 1.0点と、Position Score (1.0 - 30 / 50) = 0.4点の計1.4点を獲得
  • 例2: 50文字の問題文に対して、10・15・20・25文字目ですべて異なる誤答を出力したあと、30文字目で初めて正解を出力した場合
    • 正解を出力する前に4種類の誤答を出力したので無得点
  • 例3: 50文字の問題文に対して、10・15・20・25文字目で同一の誤答を出力したあと、30文字目で初めて正解を出力した場合
    • 正解を出力する前に1種類の誤答しかしていないので、例1と同様に1.4点を獲得

リーダーボードに関するルール

  • 構築したシステムを用いてリーダーボード用テストデータに対する推論を実行していただき、推論結果のファイルを所定の形式でアップロードしていただきます(詳しくは データ のページをご覧ください)。
  • リーダーボード用テストデータの問題数は500問です。
  • 推論結果を人手で編集したもの(クイズを人間が解答したものなど)をアップロードすることは禁止です。
  • 推論結果のアップロードは1日1回まで可能です。

最終評価に関するルール

  • 構築したシステムのDockerイメージを提出していただき、運営側で用意した計算機(評価サーバ)上で最終評価用テストデータに対する推論を実行します。
  • 最終評価用テストデータの問題数は300問です。
  • 評価サーバでは、最終評価用テストデータの問題がリーダーボード用テストデータと同じ形式で1行ずつ与えられ、それぞれに対応する推論結果を出力するものとします(すなわち、推論はバッチサイズを1として行うものとします)。
  • 評価サーバのスペックは以下の通りです。
    • vCPU 12, Memory 78GB + Nvidia Tesla V100 (Memory 16GB) x1
  • 評価サーバでは、Dockerコンテナは外部との通信ができない設定で起動します。
  • 評価サーバでの推論の制限時間は12時間です。制限時間を超過した場合は、時間内に出力できた推論結果のみを評価対象とします。

※Dockerイメージの要件および提出方法については後日ご案内します。
※最終評価の問題数、評価サーバのスペック、および制限時間は、今後変更される可能性があります(変更の場合は事前にお知らせします)。

利用可能なデータ

  • システムの構築に利用可能なデータは一般公開されているもののみとします。本コンペティションは研究促進が目的であるため、一部のユーザしか使えないデータ等を使ったシステムは評価対象外とします。ただし、独自に作成したデータであっても、無償で一般公開すれば利用可能となります。「他の組織でも結果を再現できる」というのが一つの目安となります。
    参考までに、独自に作成したデータの一般公開が必要かどうかの判断例を記載します。
    • データ(問題)の作成やそれらに対する答えの取得や正誤判定を,公開されているモデルやアルゴリズムによって行う・判断する場合:
      公開の必要なし(同じモデルやアルゴリズムを用いることで、他の組織も結果を再現できるため)
    • データ(問題)の作成やそれらに対する答えの取得や正誤判定を,人間が直接行う・補助するような方法で行われている場合:
      公開の必要あり(人間が関わった部分は、他の組織によって結果が再現できないため)
  • 本コンペティションのサイトが提供するデータのうち、開発データ用となっているものを学習に利用してもよいこととします。データの区分はあくまでも論文を書く際などの目安の区切りのため、コンペティションにおいて利用することを妨げません。
  • 解答時にシステム外部のリソース(インターネット検索やWeb APIなど)を利用するのは禁止です。

利用可能な計算機リソース

  • 基本的に単一の計算機内のリソースで動くことを想定します(どこまでを単一計算機と思うかは常識的な範囲で考えてください)。
  • 最終評価の計算機環境については、上記「最終評価に関するルール」をご覧ください

ChatGPT などの LLM の利用に関するルール

  • 本コンペティションのためのモデルの開発、およびデータセットの作成・拡張を行う目的で、ChatGPT などの API 形式の LLM を利用することは不可とします
  • API 形式以外の LLM(オープンソースでモデルが配布されているものなど)を利用してモデルの開発およびデータセットの作成・拡張を行うことは、LLM の利用規約に従い、かつ利用方法が他の組織でも再現可能である限り、可能とします。
  • API 形式以外の LLM を推論時に利用することも可能としますが、システム全体が上記「利用可能な計算機リソース」の範囲内で動作しなければならないことに注意してください。

No private sharing outside team ルール

  • コンペティション期間中は、チーム外の他の参加者と、本コンペのフォーラム以外のプライベートな場において、コードやデータなどを共有することや、戦略などについて具体的な議論を行うことを禁止します。これはチーム間の情報格差による公平性を保つための措置です。
  • チーム人数は最大で5人です(チーム作成方法はこちら)。
第4回コンペティションの早押し解答タスク向けに、以下のベースラインを提供しています。

aio4-bpr-baseline (GitHub)

深層ニューラルネットワーク (DNN) に基づく QA システムで多く採用されている Retrieve and Read 方式(または Retriever-Reader 方式)のシステムです。具体的には、DPR [Karpukhin+, EMNLP 2020] を拡張し、文書ベクトルの2値化を行うことでベクトルのサイズ削減を行う手法 BPR [Yamada+, ACL 2021] を、本コンペティションで扱う日本語クイズ問題向けに実装したものです。第4回の早押しタスク向けに、推論時に Reader が出力する解答のスコアが一定以上の時にのみ解答を出力する機構を導入しています。

参考文献
  • [Karpukhin+, EMNLP 2020] Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih. Dense Passage Retrieval for Open-Domain Question Answering. In EMNLP, pp.6769–6781, 2020. [Paper] [GitHub]
  • [Yamada+, ACL 2021] Ikuya Yamada, Akari Asai, Hannaneh Hajishirzi. Efficient Passage Retrieval with Hashing for Open-domain Question Answering. In ACL, pp.979–986, 2021. [Paper] [GitHub]

aio4-fid-baseline (GitHub)

本システムも Retrieve and Read 方式のシステムです.具体的には,Retriever部分にDPR [Karpukhin+, EMNLP 2020] を,Reader部分にFiD [Izacard+, EACL 2021] を用いる形で,本コンペティションで扱う日本語クイズ問題向けに実装したものです.FiDが推論する際の生成スコアに閾値を設け,その閾値を超えた時のみ解答の出力を行うようにすることで,早押し形式への対応を行っています.

参考文献
  • [Karpukhin+, EMNLP 2020] Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih. Dense Passage Retrieval for Open-Domain Question Answering. In EMNLP, pp.6769–6781, 2020. [Paper] [GitHub]
  • [Izacard+, EACL 2021] Gautier, Izacard and Edouard, Grave. Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering. In EACL, pp.874–880, 2021. [paper]

AIO4_GPT_baseline (GitHub)

Transformerをベースに大量の文で事前学習したGPTモデルによるzero-shotのQAシステムです。日本語のwikipediaやC4、CC-100で学習したrinna株式会社の日本語GPTモデルを使用しています。また、株式会社サイバーエージェントの日本語GPTモデルの結果も報告します。zero-shotなシステムのため、追加学習なしですぐに動かすことができます。

参考文献

Disclosure policy

As a general rule, in accordance with Article 4, Paragraph 1 of the terms of participation, diclosing any contents such as insights and deliverables transmitted through the information or data provided by our company in relation to this competition is not permitted, however, only after the completion of this competition and for non-commercial purposes, it will be possible to disclose the contents within the score of the table below
Model *1
Private
Analysis results *2
Private
Public : Posting to social media sites, blogs and source repositories, and citing to papers
Restricted : Using in a limited range from research, education to seminars, where many unspecified people cannot access
*1 Execution unit source code and learned models
*2 The insights obtained using the information and data provided, or the solutions including scripts and processed data such as summary statistics

【本コンペ特記事項】
本コンペティションは懸賞を設定していないため、第3条は不要とします。また、第4条第4項で定める当社提供情報の消去又は返還も不要とします。


Terms of Participation in SIGNATE Competition

In order to participate in the Competition, you are required to agree to these Terms, in addition to the Terms of Use of SIGNATE.JP Site (hereinafter referred to as the “Terms of Use”). You should participate in the Competition after reading carefully and agreeing to these Terms. These Terms, the matters that are displayed as “additional matters” that you have agreed to when participating in a Competition, the Terms of Use and other terms and conditions that you have agreed to (hereinafter collectively referred to as “these Terms, etc.”) shall all be binding on the Participant.


Article 1 Definitions

1. For the purpose of these Terms, the following terms shall be defined as follows:

(1) “Site” means the website “SIGNATE (https://signate.jp)” on which the Competitions are posted.
(2) “Competition” means any competition on AI development or data analysis on the Site as held by the Host.
(3) “Host” is the host(s) of the Competition. The Host may be SIGNATE, Inc. (hereinafter referred to as the “Company”) or the Company’s client companies, affiliated companies, schools or organizations, etc. (hereinafter referred to as the “Client(s)”).
(4) “Participant(s)” means the member(s) (which mean “member(s)” defined in the Terms of Use, and the same shall apply hereinafter) who participate in a Competition.
(5) “Submissions” means, collectively, the analysis and prediction results, prediction models and reports, etc. as submitted in the Competition.
(6) “Final Submissions” means the Submissions submitted by a Participant that the Participant has specified as a final submission on the prescribed page in the Site by the time of completion of a Competition.
(7) “Winner Candidate” means the Participant who has received a notice from the Company that he/she is nominated as a winner candidate.
(8) “Submissions for Final Judgment” means the Submissions and other items designated by the Company as submitted by a Winner Candidate pursuant to the instructions of the Company.
(9) “Final Judgment” means the acceptance inspection and judgment, including reproducibility verification, by the Company for the Final Submissions and Submissions for Final Judgment of a Winner Candidate.
(10) “Winner” means the Winner Candidate who is informed by the Company that he/she has won a prize.
(11) “OSS” means software licensed based on OSS License Terms.
(12) “OSS License Terms” means any of the following license terms
(1) Either the GNU General Public License or the GNU Lesser General Public License published by the Free Software Foundation, Inc.;
(2) License terms listed at www.opensource.org/licenses/ or derivatives thereof;
(3) License terms that regard the software as “free software” or “open source software”; and
(4) License terms or agreements similar to the license terms listed in each of the three preceding items which request the user to disclose, distribute or license to a third party, or not to exercise, etc., the licensed software, its derivatives and the intellectual property rights associated therewith in whole or in part.

Article 2 Competition

1. A member who desires to participate in a Competition shall be required to agree to these Terms, etc. and to satisfy the conditions for participation as specified in each such Competition. Any person who is not a member shall not participate in any Competition.
2. Participants shall participate in each Competition in the manner as advised by the Company and shall be obligated to comply with the rules as prescribed in each Competition.
3. Participants may submit the Submissions for the assignment of a Competition during the period of such Competition and submit as many proposals on the method of solving the problem as specified by the Company to the Host by the end of the period of the said Competition.
4. Participants may submit Submissions in the form specified in the Competition and specify those Submissions as a Final Submission on the prescribed page in the Site by the end time specified by the said Competition.
5. Participants’ Final Submissions shall be evaluated in accordance with the evaluation method specified in the Competition and the final ranking shall be determined based on such evaluation.
6. Participants may, as a general rule, check their own evaluation results and the evaluation results of each of the other Participants for Submissions that may be evaluated quantitatively on the Site.
7. Participants shall be solely liable for their own Submissions, including the legality and non-infringement of the Submission.
8. Participants shall not submit any Submissions that have no direct relationship to each Competition.
9. Unless otherwise provided for, Participants may not directly communicate to, consult with, make a request to, solicit or take any other actions with the Host in respect of the matters related to a Competition during the period of the said Competition.
10. Participants shall direct any questions or concerns regarding any Competition to the Company or the third party designated by the Company in accordance with the procedures prescribed by the Company as posted on the Site.
11. Participants shall produce Submissions in compliance with the OSS License Terms related to the OSS when using or incorporating OSS in a Submission. However, Participants shall not use or incorporate OSS for which commercial use is prohibited in a Submission.
12. The Host shall not be obligated to pay any remuneration or other consideration for any act of the Participants in a Competition under any pretext. And the Company shall not be obligated to pay any remuneration or other consideration other than those prescribed in the following Article for any act of the Participants in a Competition.

Article 3 Reward and Vesting of Rights

1. Unless otherwise provided for, any Participant shall satisfy the requirements set forth in the following items in order to be entitled to receive a reward in any Competition that offers a reward:

(1) To be a winner;
(2) To agree to transfer to the Host and the relevant transferee of rights in such Competition all transferable rights, such as copyrights (including the rights as prescribed in Article 27 and Article 28 of the Copyright Act, and the same shall apply hereinafter), rights to obtain patents and know-how, etc. in and to all analysis and prediction results, prediction models, reports, etc., written explanations on algorithms, source code and reproduction method, etc. (although not limited to these), and the Submissions contained in the Final Submissions and Submissions for Final Judgment (hereinafter referred to as the “Rights”) along with a guarantee that the Participant has the authority to transfer such Rights;
(3) To guarantee that any relevant transferee of rights may use the Rights contained in the Final Submissions and Submissions for Final Judgment for its own business and other purpose without any restriction and to agree to their exclusive use of such Rights;
(4) To agree not to exercise moral rights to the Rights against the relevant transferee of rights;
(5) To enter into an agreement for the transfer of the Rights with the relevant eligible transferee of rights, including the guarantee of and agreement to the matters in the preceding three (3) items and other reasonable provisions;
(6) To have the personal identity of such Participant verified by the Company; and
(7) Not to breach any provision of these Terms, etc.

2. Any Winner Candidate shall, after having received a notice from the Company that he/she is nominated as a winner candidate, submit the Submissions for Final Judgment on or before the designated date and communicate the matters requiring confirmation or response in relation to the Final Submissions and the Submissions for Final Judgment to the Company on or before the designated date, in accordance with the instructions of the Company. The Company shall carry out the final judgment based on such matters requiring confirmation or response. If the Company receives no confirmation or response satisfactory to the Company on or before the designated date, the Company may exclude such Winner Candidate from the subject of the final judgment and the Winner Candidate shall not raise any objection thereto.
3. If the Company considers that the Final Submissions or Submissions for Final Judgment need to be amended or modified, or there occur any additional matters requiring confirmation, in the course of the final judgment, any Winner Candidate shall take action or make response in relation to the matters that require amendment or modification, or the matters requiring confirmation, on or before the designated date in accordance with the instructions of the Company. If the Company receives no action or response satisfactory to the Company on or before the designated date, the Company may exclude such Winner Candidate from the final judgment and the Winner Candidate shall not raise any objection thereto.
4. The Company shall determine the Winner through the final judgment and inform the Winner to that effect.

Article 4 Confidentiality

1. Any Participant shall treat any information and data that they receive from the Company in relation to Competitions as well as knowledge and products, etc. obtained using such information and data (including Participant Submissions; hereinafter referred to as the “Company-Provided Information”) as confidential information and shall not disclose the same to any third party and use the same for any purpose other than for such Competition and purpose specified by the Company separately; provided, however, that the confidential information shall not include any information that falls under any of the following items:

(1) Information that is known to the public at the time it was received;
(2) Information that is already possessed by the Participant at the time it was received (only in the case where such Participant may demonstrate such fact by reasonable means);
(3) Information that becomes known to the public without the fault of the Participant after it was received;
(4) Information that is independently developed by the Participant without reference to any information received; or
(5) Information that is rightfully received from any third party having a right to disclose such information without the obligations of confidentiality (only in the case where such Participant may demonstrate such fact by reasonable means).

2. Any Winner shall handle his/her Final Submissions and Submissions for Final Judgment in the same manner as Company-Provided Information after receiving notification that they are a winner. And Participant Submissions other than the Winner’s Final Submissions and Submissions for Final Judgment shall not be included as Company-Provided Information after the Company has determined the Winner notwithstanding the provisions of the preceding paragraph.
3. Any Participant may publish any algorithms that they have developed as well as any other materials they have created in connection with their participation in a Competition (including Final Submissions and Submissions for Final Judgment) after that Competition in accordance with the Competition Information Disclosure Policy (hereinafter, "Information Disclosure Policy") posted on the Site. However, Participants shall observe the following matters when publishing information and may not publish any materials prohibited by the Information Disclosure Policy:

(1) Clarify that the materials were created in connection with participation in the Competition;
(2) Give credit in accordance with the notation method prescribed in the Information Disclosure Policy when the materials to be published contain part of a dataset; and
(3) Clarify the location accessible to all Participants (including but not limited to the Competition forum and other locations designated by the Company) where the materials are published (including links, etc.) if publishing materials outside the Competition forum.

4. Any Participant shall delete or return to the Company the Company-Provided Information (excluding the information prescribed in paragraph 3) immediately after the completion of a Competition.
5. If there is any separate arrangement in relation to the confidential information in a Competition, the provisions of such arrangement shall prevail over the provisions of these Terms.
6. If any dispute occurs between a third party and the Host or the Company due to the breach by any Participant of the provisions of this Article and such other party makes any claim against the Company or the Host, such Participant shall compensate for any damage, loss, expenses (including, but not limited to, attorneys’ fees), lost profits and lost revenues, etc. incurred by the Company and the Host.
7. The provisions of this Article shall survive the termination of the relevant Competition or the Participant’s completion of the procedures for withdrawal from all services provided by the Company, with respect to the Company-Provided Information and the Winner’s Final Submissions and Submissions for Final Judgment for a period of five (5) years thereafter.

Article 5 Prohibited Acts of Participants

1. The Company shall prohibit Participants from engaging in any of the following acts in any Competition:

(1) An act of cracking, cheating, spoofing and other misconduct;
(2) An act of redistributing data files included in the dataset;
(3) An act of directly communicating to, consulting with, making a request to, soliciting or responding to solicitation or other activities to other Participants or the Host (other than the Company) without the involvement of the Company for the purpose of furthering the Participant’s own interests;
(4) Any profitmaking activities using the Competition (including but not limited to solicitation or scouting activities, and use for a third party in educational business, etc.) without the prior approval of the Company in writing or any other manner specified by the Company;
(5) An Act of transferring, offering as collateral or otherwise disposing of the Participants’ standing, or the rights or obligations, as a Participant in any Competition (except with the prior written consent of the Company);
(6) Acts that infringe upon the intellectual property rights, trade secrets or any other rights of third parties; and
(7) Any other act in breach of these Terms, etc.

2. If the Company deems that a Participant has engaged in, or may engage in, any of the prohibited acts as prescribed in the preceding paragraph, the Company may, without prior notice to the Participant, disqualify the Participant from the Competition in which the Participant participates, temporarily suspend the Participant from using some or all of the services provided by the Company, withdraw the Participant’s membership, claim damages from the Participant or take any other measures deemed necessary by the Company.

Article 6 Modification of Terms

1. The Company may modify, add or delete any provisions of these Terms from time to time without the approval of Participants.

October 6, 2023