量子化誤差のない連続出力分布型HMMを用いて日本語の23音韻を対象にして認識を行った。まず、比較的難しいタスクとされている有声破裂音 /b/,/d/,/g/ の認識を、種々のモデル構造を使って検討した。その結果、混合連続出力分布HMMを用いた場合で3人話者の平均で97.8%の認識率が得られた。更に、そのモデルに線形回帰係数をパラメータとして付加することにより、98.4%まで認識率を上げることができた。この回帰係数を付加した混合連続出力分布HMMを使って認識対象を23音韻に拡張した場合、95.1%の認識率が得られ、状態ごとの離散分布継続時間長制御を併用した場合、18子音で96.3%、23音韻で96.5%の認識率を得ることができた。また、有声破裂音においては教師なし話者適応化も行い、その効果を確かめた。最後に、同じデータベースに対する他の手法(離散出力分布型HMM、時間遅れニューラルネットワーク、学習ベクトル量子化法)との比較結果について述べる。
抄録全体を表示