背景
図書館が所蔵資料をデジタル化することは、資料の検索可能性や提供可能性を向上させる上で重要な意味を持ちます。デジタル化は、多くの場合テキスト情報を持たない画像データの作製にとどまっており、そのままでは資料本文中に記述されている情報を検索することができませんが、昨今のOCR技術の進展により、画像データからテキストデータを作成することで本文検索が可能になるため、技術的検討が進められています。例えば、国立国会図書館ではOCRを利用した本文検索機能を含む、機械学習技術を応用した実験的検索サービス「次世代デジタルライブラリー(https://lab.ndl.go.jp/dl/)」が公開されています。しかし、昭和前期以前に刊行された資料の画像は、撮影時の資料の状態や現代の刊行物とのレイアウトの違いといった問題から、新刊書等をOCR処理する場合に比べてテキスト化の精度が大きく低下するという課題があります。このような課題を解決しOCR処理の精度の向上を図るため、処理を行う前段階で、画像データのレイアウト認識を行いテキスト領域や資料画像データを対象とした研究等に有用な領域を特定するアルゴリズムの作成に挑戦していただきます。
課題
資料画像に対して、予測対象のレイアウトラベルを含む矩形領域を、bounding box =(x1, y1, x2, y2) として割り当て、且つラベルの1つを付与していただきます。各画像には、1つ以上の bounding boxが割り当てられます。bounding box は画像の左上を原点(0,0)とし、オブジェクト領域の左上の座標(x1, y1)、右下の座標(x2, y2)の4つを指定することで表現されます。なお、予測対象となるレイアウトラベルは、「古典籍資料」と「明治期以降刊行資料」で異なります。
データセット
内訳学習用データセット | 評価用データセット | |
古典籍資料 | 1219枚 | 211枚 |
明治期以降刊行資料 | 1175枚 | 252枚 |
合計 | 2394枚 | 463枚 |
※本データセットは国立国会図書館が作成・公開しているレイアウトデータセット(https://github.com/ndl-lab/layout-dataset)をもとに、「国立国会図書館刊行物」のデータセット及びモデル性能評価用データを追加したものです。
構成
・資料画像(jpeg画像)
・アノテーションデータ(資料の種別やデータ公開可否、メタ情報(著者名や出版年等)、出現するレイアウトラベル・矩形タグ領域)(json形式)
※評価用データセットには、出現するレイアウトラベル・矩形タグ領域は含まれません。
古典籍資料
特徴
明治期より前に出版された出版物であり、浮世絵や和書・漢籍資料が含まれる。また、マイクロ資料を再デジタル化した場合など、強いノイズの乗った資料も存在する。浮世絵の中に文字が書き込まれているなど、複数のレイアウトの重なりがある場合が多い。
含まれるレイアウトラベル
ラベル名 | 説明 |
1_overall | 資料範囲全体 |
2_handwritten | くずし字の文字ライン |
3_typography | くずし字以外の文字ライン |
4_illustration | イラスト(写真含む) |
5_stamp | 印影(蔵書印等) |
画像サンプル
明治期以降刊行資料
特徴
明治期以降に出版された、冊子の形態をとる出版物である。マイクロ資料をデジタル化した資料など、強いノイズの乗った資料が多く存在する。多くは昭和前期より前に刊行された資料であるが、一部戦後に刊行された刊行物を含む。
含まれるレイアウトラベル
ラベル名 | 説明 |
1_overall | 資料範囲全体 |
4_illustration | イラスト(写真含む) |
5_stamp | 印影(蔵書印等) |
6_headline | 見出し |
7_caption | 図表見出し |
8_textline | 6_headline, 7_caption 以外の文字ライン |
9_table | 表 |
画像サンプル