自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
一般論文(査読有)
複数の補助教師データを用いた固有表現抽出の学習手法
渡邊 大貴市川 智也田村 晃裕岩倉 友哉馬 春鵬加藤 恒夫
著者情報
ジャーナル フリー

2023 年 30 巻 2 号 p. 507-530

詳細
抄録

固有表現抽出 (Named Entity Recognition; NER) は,テキストからの知識獲得に用いられる要素技術の一つであり,たとえば,化学物質や医療の知識抽出に用いられている.NERの性能改善のため,対象タスクの教師データとは別の教師データを補助教師データとして用いる補助学習が提案されている.従来の補助学習では補助教師データとして1種類の教師データしか用いていない.そこで,本研究では,複数種類の教師データを補助教師データとして活用するNERの学習手法 (Multiple Utilization of NER Corpora Helpful for Auxiliary BLESsing; MUNCHABLES) を提案する.具体的には,補助教師データ毎の補助学習を順次行うことで,対象タスクのモデルを補助教師データの種類の数だけ再学習する方法と,全種類の教師データを一つの補助学習で用いる方法の2種類の学習手法を提案する.評価実験では,化学物質名抽出タスクにおいて,7種類の化学/科学技術分野の補助教師データを用いて提案手法で学習したモデルの評価を行った.その結果,提案手法によるモデルはマルチタスク学習や1種類の補助教師データを用いる補助学習手法によるモデルと比べて,7種類のデータセットにおける F1 値のマイクロ平均,マクロ平均ともに高い性能となることを確認した.また,s800のデータセットにおいて従来手法と比較をして最も高い F1 値を達成した.

著者関連情報
© 2023 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top