人工知能学会研究会資料 言語・音声理解と対話処理研究会
Online ISSN : 2436-4576
Print ISSN : 0918-5682
99回 (2023/12)
会議情報

声質変換を用いたデータ拡張による対話音声生成の検討
川西 翔貴千葉 祐弥杉山 弘晃伊藤 彰則
著者情報
会議録・要旨集 フリー

p. 37-42

詳細
抄録

一般的な音声合成システムが生成する音声は対話音声として聞くとやや不自然に感じる.これは,音声合成モデルが読み上げ音声から学習されていることがひとつの原因であるが,特定の話者の対話音声を音素バランスを考慮して大量に収集するのは容易ではない.この問題に対して、私たちは声質変換を用いて特定話者の対話音声を生成し,対話音声合成に利用する手法を提案する.読み上げ音声合成用に整備されたコーパスの話者を声質変換の目標話者とすることで,音素バランスの取れた音声と対話らしい音声の両方を学習データとして確保できる.加えて,この方法では対話音声を大量に生成できる利点もある.本稿では,生成された対話音声データと音声合成用コーパスの発話を用いて学習された音声合成モデルが,対話として自然な音声の生成に有用であることを示す.

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top