本論文では, 形態素クラスタリングと未知語モデルの改良による確率的形態素解析器の精度向上を提案する. 形態素クラスタリングとしては, 形態素
n-gramモデルをクロスエントロピーを基準としてクラス
n-gramモデルに改良する方法を提案する. 未知語モデルの改良としては, 確率モデルの枠組の中で学習コーパス以外の辞書などで与えられる形態素を追加する方法を提案する. bi-gramモデルを実装しEDRコーパスを用いて実験を行なった結果, 形態素解析の精度の向上が観測された. 両方の改良を行なったモデルによる形態素解析実験の結果の精度は, 先行研究として報告されている品詞tri-gramモデルの精度を上回った. これは, 我々のモデルが形態素解析の精度という点で優れていることを示す結果である. これらの実験に加えて, 品詞体系と品詞間の接続表を文法の専門家が作成した形態素解析器との精度比較の実験を行なった. この結果, 確率的形態素解析器の誤りは文法の専門家による形態素解析器の誤りに対して有意に少なかった. 形態素解析における確率的な手法は, このような人間の言語直感に基づく形態素解析器と比較して, 現時点で精度がより高いという長所に加えて, 今後のさらなる改良にも組織的取り組みが可能であるという点で有利である.
抄録全体を表示