確率的タグ付与コーパスからの言語モデル構築

森 信介; 笹田 鉄郎; Neubig Graham

doi:10.5715/jnlp.18.71

抄録

確率的言語モデルは，仮名漢字変換や音声認識などに広く用いられている．パラメータは，コーパスの既存のツールによる処理結果から推定される．精度の高い読み推定ツールは存在しないため，結果として，言語モデルの単位を単語（と品詞の組）とし，仮名漢字モデルを比較的小さい読み付与済みコーパスから推定したり，単語の発音の確率を推定せずに一定値としている．これは，単語の読みの確率を文脈と独立であると仮定していることになり，この仮定に起因する精度低下がある．このような問題を解決するために，本論文では，まず，仮名漢字変換において，単語と読みの組を単位とする言語モデルを利用することを提案する．単語と読みの組を単位とする言語モデルのパラメータは，自動単語分割および自動読み推定の結果から推定される．この処理過程で発生する誤りの問題を回避するために，本論文では，確率的タグ付与を提案する．これらの提案を採用するか否かに応じて複数の仮名漢字変換器を構築し，テストコーパスにおける変換精度を比較した結果，単語と読みの組を言語モデルの単位とし，そのパラメータを確率的に単語分割し，さらに確率的読みを付与したコーパスから推定することで最も高い変換精度となることが分かった．したがって，本論文で提案する単語と読みの組を単位とする言語モデルと，確率的タグ付与コーパスの概念は有用であると結論できる．

著者関連情報

Licensed under CC BY 4.0
https://creativecommons.org/licenses/by/4.0/

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）