デジタルアーカイブからの情報抽出技術 ：画像からのテキスト・図表の抽出

青池 亨

doi:10.24506/jsda.8.3_115

抄録

デジタルアーカイブに搭載された資料画像から、テキストデータや図版といった情報を自動抽出し、利用者に提供することは、AI技術（機械学習技術）の高度化に伴って、全文検索対応やアクセシビリティ改善の観点で近年注目を集めているアプローチである。国立国会図書館はNDLラボという実証実験の場を有している。これまで機械学習技術を応用した情報抽出手法の実験的な機能の実装と公開を行い、開発の過程で得られた知見や利用者の反応を国立国会図書館デジタルコレクション等の要件検討に反映してきた。本稿では情報抽出技術の解説にくわえ、NDLラボで実際に各技術を組み込んだ実験サービス等を運用して得られた知見を紹介する。

著者関連情報

この記事はクリエイティブ・コモンズ [表示 4.0 国際]ライセンスの下に提供されています。
https://creativecommons.org/licenses/by/4.0/deed.ja

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）