2024 年 31 巻 3 号 p. 984-1014
固有表現抽出は,自然言語処理において基本的で重要なタスクである.しかし,大量の教師データを必要とする従来の固有表現抽出は,ユーザーに応じた多様な粒度のカテゴリを抽出するという実社会の需要に柔軟に対応できていない.既知語が出現する文脈を擬似教師データとして利用する弱教師あり固有表現抽出は,大規模なシソーラスと組み合わせることでこの多様なカテゴリの需要に対応できる.弱教師あり固有表現抽出の先行研究は,擬似教師データの誤りに頑健な学習法を提案してきたが,これらの学習法の結果作られたモデルには,関心のあるカテゴリと無関心なカテゴリの境界を超えて予測してしまうという副作用があった.この副作用に対し本研究では,ユーザーの関心のあるカテゴリを含むシソーラスの全カテゴリを擬似教師データ作成に活用する手法を提案し,実験を通じてシソーラスに含まれる総体的な知識の有用性を明らかにした.