2022 年 6 巻 s3 号 p. s210-s213
令和3年度、国立国会図書館は、二つのOCR関連事業を外部委託にて実施した。一つは、国立国会図書館が保有するデジタル化資料約247万点(2億3000万画像)のOCRによるテキスト化であり、もう一つはオープンソースで公開可能なOCR処理プログラムの研究開発である。令和4年3月から5月にかけて、OCR関連事業の成果物の一部を使った実験サービスをNDLラボ上で公開した。NDLラボは、次世代の図書館システムの開発に資する要素技術の実証実験を行うウェブサイトである。令和4年9月現在、NDLラボ上の実験サービス「次世代デジタルライブラリー」及び「NDL Ngram Viewer」は、著作権保護期間が満了した図書約28万点の全文テキストデータを対象としている。本発表では、OCR関連事業の概要、実験サービスの特徴を紹介するとともに、沖縄に関連するキーワードを用いた検索結果から、本文テキストデータの地域史研究等への活用可能性を探る。