Webインテリジェンスとインタラクション研究会 予稿集
Online ISSN : 2758-2922
第20回研究会
会議情報

セッション3:LLM(1)
BERTとその後継モデルによる参考文献書誌情報抽出の確信度による誤り検出
中山 竣平金澤 輝一上野 史太田 学
著者情報
会議録・要旨集 フリー

p. 48-55

詳細
抄録

電子図書館において文書間リンクを生成するためには参考文献文字列からタイトルや著者などの書誌情報を抽出することが不可欠である.著者らは自然言語処理モデルであるBERTを用いた参考文献文字列から書誌情報抽出する手法を提案し,2000年の電子情報通信学会英文論文誌において書誌情報抽出精度0.958を達成した.これは高精度ではあるが,人手による修正が必要である.そこで本稿では,人手による修正コストを削減する手法を提案するため,BERTとその後継モデルであるXLM-RoBERTa,LUKEを使用して参考文献書誌情報を抽出し,その抽出誤りを検出する.実験では,電子情報通信学会英文論文誌データにおいて,XLM-RoBERTaが0.958の書誌情報抽出精度を示し,抽出誤りを含む参考文献文字列を89.0%検出した.これらを含む検出した参考文献文字列は全参考文献文字列の13.7%を占め,これらを修正したとみなせば書誌情報抽出精度は0.995となった.

著者関連情報
2024 この論文のすべての権利と著作権は著者に帰属します。
前の記事 次の記事
feedback
Top