主催: 人工知能学会
会議名: 第99回言語・音声理解と対話処理研究会
回次: 99
開催地: 国立国語研究所 講堂 / オンライン
開催日: 2023/12/13 - 2023/12/14
p. 37-42
一般的な音声合成システムが生成する音声は対話音声として聞くとやや不自然に感じる.これは,音声合成モデルが読み上げ音声から学習されていることがひとつの原因であるが,特定の話者の対話音声を音素バランスを考慮して大量に収集するのは容易ではない.この問題に対して、私たちは声質変換を用いて特定話者の対話音声を生成し,対話音声合成に利用する手法を提案する.読み上げ音声合成用に整備されたコーパスの話者を声質変換の目標話者とすることで,音素バランスの取れた音声と対話らしい音声の両方を学習データとして確保できる.加えて,この方法では対話音声を大量に生成できる利点もある.本稿では,生成された対話音声データと音声合成用コーパスの発話を用いて学習された音声合成モデルが,対話として自然な音声の生成に有用であることを示す.