お知らせ
[2022/03/24] OpenCV(cv2)を利用できない不備を改修しました。
背景・目的
日本では古典籍・古文書・古記録といった歴史的な資料(史料)が長年受け継がれてきました。それらはわれわれの社会にとって貴重な財産であり、保存のみならず有効に活用することが望まれます。しかしながらくずし字で書かれているものも数多く、残念ながら今やそれらは専門家など一部の方々にしか読めなくなっています。
凸版印刷株式会社は情報・文化の担い手として、彩りの知と技をもとにふれあい豊かなくらしに貢献することを目指しています。その一環として2015年からくずし字OCRの研究・実証実験を進めてきました。かつてはコンピュータでくずし字を認識することは技術的に困難でしたが、昨今大きな進展を見せるAI技術により夢ではなくなりつつあります。そこで本コンペティションではAIアルゴリズムを用いたくずし字認識に挑戦していただきます。皆さまの技術によって、何百年も前の人々が書きしるした事柄を簡単に読める時代が来るかもしれません。
皆さまからのご応募を心よりお待ちしております。
タスク説明
あるページの行領域を検出するアルゴリズムを作成していただきます
データセット
画像 | アノテーション | |
---|---|---|
ファイルフォーマット | jpg | tsv |
内容 | ある書籍の1ページの画像データ | 対応する画像における行領域を表現する4点ポリゴン |
サンプルサイズ | 4,160枚 | 4,160件 |
備考 | 解像度は一定ではない | ポリゴンの数は一定ではない |
※詳細は、配布データのreadme等をご参照ください。