2021 年 28 巻 4 号 p. 1089-1115
固有表現認識は,科学技術論文などのテキストから分野特有の用語を機械的に抽出するタスクである.固有表現認識の従来研究は連続した範囲から成る固有表現のみを解析対象としているが,並列する固有表現の一部が省略された複合的表現が含まれており,これらの固有表現に対して個々の固有表現を抽出することが困難である.本研究では,近年の自然言語処理タスクで広く使用されている学習済み言語モデルを用いて,並列構造の教師データを用いずに並列する句の範囲を同定し,複合化された固有表現を正規化する手法を提案する.GENIA Treebank と GENIA term annotation を用いた評価実験では,教師情報を使用した先行研究と近い解析性能を示し,提案手法によって固有表現認識の精度が向上することを確認した.