自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
論文
仮説検定に基づく英文書の母語話者性の判別
冨浦 洋一青木 さやか柴田 雅博行野 顕正
著者情報
ジャーナル フリー

2009 年 16 巻 1 号 p. 1_25-1_46

詳細
抄録

本論文では,ベイズ識別と仮説検定に基づいて,英文書の作成者の母語話者/非母語話者の判別を高精度で行う手法を提案する.品詞 n-gram モデルを言語モデルとし,判別対象の文書の品詞列の生起確率を,母語話者言語モデルにより求めた場合と非母語話者言語モデルにより求めた場合とで比較し,判別を行う.n を大きくすると,母語話者/非母語話者固有の特徴をより良く扱うことが可能となり,判別精度の向上が期待できる反面,ゼロ頻度問題およびスパースネスの問題が顕在化し,品詞 n-gram モデルのパラメタの最尤推定値を信頼することはできくなる.そこで,提案手法では,仮説検定に基づいた方法で両言語モデルにおける生起確率の比を推定する.実験の結果,従来手法を上回る 92.5% の精度で判別できることを確認している.

著者関連情報
© 2009 言語処理学会
前の記事 次の記事
feedback
Top