本稿では条件付確率場に基づく固有表現抽出において,新たなドメインにモデルを適応するためのモデル学習コスト―正解データ作成コスト―を低減する 2 つの学習手法を提案する.本手法では,タグ単位の事後確率をタグ信頼度とみなし,信頼度の低いタグをシステムの解析誤りとして自動的に検出する.そして検出された解析誤りタグのみを修正の対象とするため,文全体の事後確率を利用する場合と比較して,修正が必要である箇所に効率よくコストを注力させることが可能となる.
第 1 の学習手法として,能動学習に本手法を適用すると,システム出力の信頼度が低いタグのみを検出して人手修正対象とすることにより,従来手法と比較して修正コストが 1/3 に低減した.
また,第 2 の学習手法として正解固有表現リストを利用したブートストラップ型学習に適用すると,解析誤りとして検出されたタグの上位候補から半自動的に正解タグを発見可能であった.この学習法では,大量のプレーンテキストから,半自動で正解データを作成できるため,更に学習コストを低減させる効果がある.
抄録全体を表示