主催: 一般社団法人 人工知能学会
会議名: 第34回全国大会(2020)
回次: 34
開催地: Online
開催日: 2020/06/09 - 2020/06/12
国立国会図書館(NDL)では、272万点に及ぶデジタル化した所蔵資料の検索可能性と提供可能性を広げるため、デジタル化画像に機械学習を適用する調査研究を行っている。これまでにも、Semantic Segmentationを適用して資料から挿絵等を自動抽出することで類似資料を画像検索する機能や、GANを適用して画像のコントラストを加工し、紙面が褐変した資料を読みやすくする機能等を開発してきた。 現在、明治期の活字資料等、既存のOCRソフトでは読み取り精度が低い資料群を高品質にテキスト化することを目的として、資料のレイアウト解析及び文字認識等について研究を進めている。その一環として構築した、古典籍や近代のインターネット公開資料を多く含む2,857画像からなる資料レイアウトデータセット「NDL-DocL」(うち2,280画像をGitHubから公開)と、アノテーション作業を半自動化するためのレイアウト認識モデルの認識性能と、開発したレイアウト用アノテーションツールについて報告する。また、データセットを利用した発展的な取組について述べる。