短時間パワースペクトル(STPS)に基づく音声認識のための特徴量として,対数化したSTPSの逆フーリエ変換で定義されるMFCCが広く利用されている。しかしSTPSのピークや谷の傾斜は,発声者の違い,分析時の周波数分解能や環境雑音による変動を受け易く,MFCCもこれらの変動に対する頑健性が弱い。本研究では雑音に対する頑健性を強調するという観点から,STPSの周波数軸方向又は時間軸方向の傾斜を2値化/3値化した値を利用する特徴量を提案する。本論文では2値化/3値化の利点及び提案する特徴量の計算法を示し,また単語単位のHMMに適用し,提案した特徴量の耐雑音性についてMFCCと比較して検証する。
抄録全体を表示