2025 年 9 巻 3 号 p. e25-e31
本研究は、デジタルアーカイブ構築におけるメタデータ作成の効率化を目的として、「大江健三郎文庫自筆原稿デジタルアーカイブ」の実際のデータを対象に、複数の手法でデータセット間の関連付けの工程を再現し専門家による作業結果との一致率を評価した。書誌情報の完全一致、文字列の類似度の比較、大規模言語モデル(LLM)を用いた手法を比較検証した結果、刊行日の完全一致による手法が比較的高い正答率と短い処理時間を示した。一方、LLMを用いた手法は最も正答率が高い反面、処理時間が極めて長いという課題があった。これらの知見を基に、複数手法を組み合わせることで、正答率と処理時間のバランスが改善されることを実証した。