自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
論文
タグ信頼度に基づく半自動自己更新型固有表現抽出
齋藤 邦子今村 賢治
著者情報
ジャーナル フリー

2010 年 17 巻 4 号 p. 4_3-4_21

詳細
抄録
本稿では条件付確率場に基づく固有表現抽出において,新たなドメインにモデルを適応するためのモデル学習コスト―正解データ作成コスト―を低減する 2 つの学習手法を提案する.本手法では,タグ単位の事後確率をタグ信頼度とみなし,信頼度の低いタグをシステムの解析誤りとして自動的に検出する.そして検出された解析誤りタグのみを修正の対象とするため,文全体の事後確率を利用する場合と比較して,修正が必要である箇所に効率よくコストを注力させることが可能となる.
第 1 の学習手法として,能動学習に本手法を適用すると,システム出力の信頼度が低いタグのみを検出して人手修正対象とすることにより,従来手法と比較して修正コストが 1/3 に低減した.
また,第 2 の学習手法として正解固有表現リストを利用したブートストラップ型学習に適用すると,解析誤りとして検出されたタグの上位候補から半自動的に正解タグを発見可能であった.この学習法では,大量のプレーンテキストから,半自動で正解データを作成できるため,更に学習コストを低減させる効果がある.
著者関連情報
© 2010 言語処理学会
前の記事 次の記事
feedback
Top