2005 年 12 巻 4 号 p. 79-96
母語話者/非母語話者文書を自動的に高精度で判別する技術は, 良質コーパスの作成支援, 非母語話者の文書推敲支援, 第二言語習得に有益な知識獲得などの面で重要な役割を果たす.本論文では, 品詞trigram分布の相違度に基づく母語話者/非母語話者文書判別法を提案する.確率分布の相違度として, ゼロ頻度問題に対処できるSkew Divergenceを用いる.Skew Divergenceはパラメタαを設定する必要があるが, 現在その設定法に定石は存在しない.本論文ではSkew Divergenceのパラメタαの設定法についても議論する.英語科学技術論文を対象にした判別実験の結果, 提案手法の有効性が確認された.