Web日本語Nグラムを用いた高頻度連鎖語音声認識の検討

高橋 伸弥; 森元 逞

doi:10.11527/jceeek.2013.0_17

抄録

音声認識に用いる言語モデルは一般に形態素を単位とすることが多い．しかし単語長の短い付属語は誤認識を起こしやすいことや慣用表現などは短い単位で認識するよりも長い単位で認識するほうがよいことから，高頻度な連鎖語は1単語として言語モデルに組み込む手法が提案されている．これらの手法においては言語モデルに組み込む連語をどのように選定するかが重要となる．そこで本研究では，Web日本語Nグラムを用いて計算した連鎖語の単語連接確率により高頻度かつ定型的な表現を選定し，これらを言語モデルに組み込む手法を提案する。日本語話し言葉コーパスの講演音声データ20名分に対する音声認識実験を行い、提案手法の有効性を示す。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）