複数の補助教師データを用いた固有表現抽出の学習手法

渡邊 大貴; 市川 智也; 田村 晃裕; 岩倉 友哉; 馬 春鵬; 加藤 恒夫

doi:10.5715/jnlp.30.507

抄録

固有表現抽出 (Named Entity Recognition; NER) は，テキストからの知識獲得に用いられる要素技術の一つであり，たとえば，化学物質や医療の知識抽出に用いられている．NERの性能改善のため，対象タスクの教師データとは別の教師データを補助教師データとして用いる補助学習が提案されている．従来の補助学習では補助教師データとして1種類の教師データしか用いていない．そこで，本研究では，複数種類の教師データを補助教師データとして活用するNERの学習手法 (Multiple Utilization of NER Corpora Helpful for Auxiliary BLESsing; MUNCHABLES) を提案する．具体的には，補助教師データ毎の補助学習を順次行うことで，対象タスクのモデルを補助教師データの種類の数だけ再学習する方法と，全種類の教師データを一つの補助学習で用いる方法の2種類の学習手法を提案する．評価実験では，化学物質名抽出タスクにおいて，7種類の化学／科学技術分野の補助教師データを用いて提案手法で学習したモデルの評価を行った．その結果，提案手法によるモデルはマルチタスク学習や1種類の補助教師データを用いる補助学習手法によるモデルと比べて，7種類のデータセットにおける F1 値のマイクロ平均，マクロ平均ともに高い性能となることを確認した．また，s800のデータセットにおいて従来手法と比較をして最も高い F1 値を達成した．

著者関連情報

Licensed under CC BY 4.0
https://creativecommons.org/licenses/by/4.0/

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）