東北大学は,学内組織の所蔵資料データを一箇所に集約し,横断的かつ網羅的に一括検索ができるようなプラットフォームを目指した「東北大学総合知デジタルアーカイブ( ToUDA)」を, 2024年に公開した.現在の参加組織は附属図書館・史料館であるが,今後は博物館などにも範囲を広げる予定である.組織の多様性ゆえに,収録資料はその膨大な量に加え,言語,書写形態(手書き・活字など),時代などにおいて多様な特徴を持つ.これらの資料の特徴を適切に分類し,また記述内容をテキストデータ化する試みは不可欠であり,そのために AI技術の活用が期待されている.
本稿では ToUDAの概要および収録資料の現状を紹介するとともに,大量かつ多様な資料の自動分類や OCR(光学文字認識)処理によるテキストデータ化を,どのように実現することが望ましいのか,またそのために必要なアプローチについて議論する.