主催: Webインテリジェンスとインタラクション研究会
会議名: WI2研究会
回次: 20
開催地: 12月1日:オンライン、12月2日~3日:唐津商工会館貸会議室
開催日: 2024/12/01 - 2024/12/03
p. 48-55
電子図書館において文書間リンクを生成するためには参考文献文字列からタイトルや著者などの書誌情報を抽出することが不可欠である.著者らは自然言語処理モデルであるBERTを用いた参考文献文字列から書誌情報抽出する手法を提案し,2000年の電子情報通信学会英文論文誌において書誌情報抽出精度0.958を達成した.これは高精度ではあるが,人手による修正が必要である.そこで本稿では,人手による修正コストを削減する手法を提案するため,BERTとその後継モデルであるXLM-RoBERTa,LUKEを使用して参考文献書誌情報を抽出し,その抽出誤りを検出する.実験では,電子情報通信学会英文論文誌データにおいて,XLM-RoBERTaが0.958の書誌情報抽出精度を示し,抽出誤りを含む参考文献文字列を89.0%検出した.これらを含む検出した参考文献文字列は全参考文献文字列の13.7%を占め,これらを修正したとみなせば書誌情報抽出精度は0.995となった.