規則による合成音声の自然性向上への貢献を狙い,客観的指標のみを用いて,人間の主観に近い音韻長設定誤差の評価を可能にするモデルを提案する。これまでに,物理的には同じ量の音韻長の歪でも,その音韻の属性や隣接音韻との様々な関係によって知覚的な許容のされ方が大きく異なることが明らかになっていた。本稿では,それらの聴知覚特性を音韻長評価の尺度に取り入れるため,音声の時間構造を表現する枠組みの一つとして,時間-ラウドネスマーカ表現を提案する。これは,音声の時間変化を音韻ごとに求めたラウドネスの代表値で離散的に表現したものである。更に,この枠組みに則って音韻長設定誤差に対する客観評価モデルを実現し,それが心理実験により実測した主観評価データの再現に有効であることを示す。
抄録全体を表示