抄録
本論文では, 日本語連続音声認識用のN-gram言語モデルの学習に用いる形態素データを, テキストデータから自動的に生成することを目的として, 品詞および可変長形態素列の複合N-gramを用い, 日本語テキストデータを自動的に形態素解析する手法を提案する. 複合N-gramは, 品詞, 形態素, 形態素列を単位としたN-gramで, 少ないデータ量から高い予測精度を持つ言語モデルである. また, 品詞から未知語が出現する確率を定式化することにより, 未知語の形態素解析を行えるようにモデルの改良を行った. 形態素解析実験の結果, 複合N-gramの形態素同定率は最高99.17%で, 従来のルールベースによる方法よりも正確に形態素の同定が行えることが判明し, 提案手法の有効性を確認した. また, 読みまで含めた評価を行った場合でも, 最高98.68%の正解率が得られた. 未知語を含む文の形態素解析では, 全ての語いが辞書に登録されている場合と比較して0.8%程度の低下に抑えることができた.