抄録
日本語では単語の境界があいまいで, 活用等のルールに基づいて定義された単位である形態素は必ずしも人が認知している単語単位や発声単位と一致しない. 本研究では音声認識への応用を目的として人が潜在意識的にもつ単語単位への分割モデルとその単位を用いた日本語の言語 (N-gram) モデルについて考察した. 本研究で用いた単語分割モデルは分割確率が2形態素の遷移で決定されるという仮定を置いたモデルで, 人が単語境界と考える点で分割した比較的少量のテキストデータと形態素解析による分割結果とを照合することにより, パラメータの推定を行った. そして多量のテキストを同モデルにしたがって分割し, 単語単位のセット (語彙) と言語モデルを構築した. 新聞3誌とパソコン通信の投稿テキストを用いた実験によれば約44,000語で, 出現した単位ののべ94-98%がカバーでき, 1文あたりの単位数は形態素に比べて12%から19%少なくなった. 一方, 新聞とパソコン通信ではモデルに差があるもののその差は単語分割モデル, 言語モデル双方とも事象の異なりとして現れ, 同一事象に対する確率の差は小さい. このため, 新聞・電子会議室の両データから作成した言語モデルはその双方のタスクに対応可能であった.