2023 年 30 巻 2 号 p. 507-530
固有表現抽出 (Named Entity Recognition; NER) は,テキストからの知識獲得に用いられる要素技術の一つであり,たとえば,化学物質や医療の知識抽出に用いられている.NERの性能改善のため,対象タスクの教師データとは別の教師データを補助教師データとして用いる補助学習が提案されている.従来の補助学習では補助教師データとして1種類の教師データしか用いていない.そこで,本研究では,複数種類の教師データを補助教師データとして活用するNERの学習手法 (Multiple Utilization of NER Corpora Helpful for Auxiliary BLESsing; MUNCHABLES) を提案する.具体的には,補助教師データ毎の補助学習を順次行うことで,対象タスクのモデルを補助教師データの種類の数だけ再学習する方法と,全種類の教師データを一つの補助学習で用いる方法の2種類の学習手法を提案する.評価実験では,化学物質名抽出タスクにおいて,7種類の化学/科学技術分野の補助教師データを用いて提案手法で学習したモデルの評価を行った.その結果,提案手法によるモデルはマルチタスク学習や1種類の補助教師データを用いる補助学習手法によるモデルと比べて,7種類のデータセットにおける F1 値のマイクロ平均,マクロ平均ともに高い性能となることを確認した.また,s800のデータセットにおいて従来手法と比較をして最も高い F1 値を達成した.