2024 年 31 巻 3 号 p. 1239-1291
文章中の固有表現の言及を検出し,人名や地名といったクラスへの分類を行う固有表現抽出は自然言語処理の基礎技術である.近年ではより細分化されたクラスへの分類が求められている.固有表現抽出器の構築には一般的に学習データが必要であるが,特に細分化されたクラスを対象とする場合,人手による学習データ作成は非常にコストが高い.先行研究は Wikipedia のリンク構造を活用して学習データを自動作成することを提案している.Wikipedia のリンクは固有表現抽出器の学習には不十分であるため,先行研究では,固有表現の先頭を大文字にする等の英語等の特徴を活用してリンクを拡張している.しかし,これらの手法は言語依存であり日本語には適用できない.本研究では,Wikipedia のリンク付与ガイドラインの定義を活用することでリンク拡張を行う手法を提案する.加えて,Wikipedia 記事中のエンティティ率を推定する手法を提案し,推定値により学習時に制約をかけることで前者では拡張できないリンクの影響を軽減する.本研究では,拡張固有表現階層の 200 カテゴリーを対象に実際に日本語の固有表現抽出器を構築する.提案手法の評価のため,ウェブニュース記事に対して人手によるラベル付けで評価データを作成し,実験により先行研究より高品質な固有表現抽出器が学習できることを示した.