BERTとその後継モデルによる参考文献書誌情報抽出の確信度による誤り検出

中山 竣平; 金澤 輝一; 上野 史; 太田 学

doi:10.57413/wii.20.0_48

抄録

電子図書館において文書間リンクを生成するためには参考文献文字列からタイトルや著者などの書誌情報を抽出することが不可欠である．著者らは自然言語処理モデルであるBERTを用いた参考文献文字列から書誌情報抽出する手法を提案し，2000年の電子情報通信学会英文論文誌において書誌情報抽出精度0.958を達成した．これは高精度ではあるが，人手による修正が必要である．そこで本稿では，人手による修正コストを削減する手法を提案するため，BERTとその後継モデルであるXLM-RoBERTa，LUKEを使用して参考文献書誌情報を抽出し，その抽出誤りを検出する．実験では，電子情報通信学会英文論文誌データにおいて，XLM-RoBERTaが0.958の書誌情報抽出精度を示し，抽出誤りを含む参考文献文字列を89.0%検出した．これらを含む検出した参考文献文字列は全参考文献文字列の13.7%を占め，これらを修正したとみなせば書誌情報抽出精度は0.995となった．

著者関連情報

2024 この論文のすべての権利と著作権は著者に帰属します。

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）