人工知能学会全国大会論文集
Online ISSN : 2758-7347
第34回 (2020)
セッションID: 3Rin4-72
会議情報

国立国会図書館のデジタル化資料の検索・提供方法改善を目的とした技術開発とデータセット構築の取組について
*青池 亨木下 貴文里見 航川島 隆徳
著者情報
会議録・要旨集 フリー

詳細
抄録

国立国会図書館(NDL)では、272万点に及ぶデジタル化した所蔵資料の検索可能性と提供可能性を広げるため、デジタル化画像に機械学習を適用する調査研究を行っている。これまでにも、Semantic Segmentationを適用して資料から挿絵等を自動抽出することで類似資料を画像検索する機能や、GANを適用して画像のコントラストを加工し、紙面が褐変した資料を読みやすくする機能等を開発してきた。 現在、明治期の活字資料等、既存のOCRソフトでは読み取り精度が低い資料群を高品質にテキスト化することを目的として、資料のレイアウト解析及び文字認識等について研究を進めている。その一環として構築した、古典籍や近代のインターネット公開資料を多く含む2,857画像からなる資料レイアウトデータセット「NDL-DocL」(うち2,280画像をGitHubから公開)と、アノテーション作業を半自動化するためのレイアウト認識モデルの認識性能と、開発したレイアウト用アノテーションツールについて報告する。また、データセットを利用した発展的な取組について述べる。

著者関連情報
© 2020 国立国会図書館
前の記事 次の記事
feedback
Top