声質変換を用いたデータ拡張による対話音声生成の検討

川西 翔貴; 千葉 祐弥; 杉山 弘晃; 伊藤 彰則

doi:10.11517/jsaislud.99.0_37

抄録

一般的な音声合成システムが生成する音声は対話音声として聞くとやや不自然に感じる．これは，音声合成モデルが読み上げ音声から学習されていることがひとつの原因であるが，特定の話者の対話音声を音素バランスを考慮して大量に収集するのは容易ではない．この問題に対して、私たちは声質変換を用いて特定話者の対話音声を生成し，対話音声合成に利用する手法を提案する．読み上げ音声合成用に整備されたコーパスの話者を声質変換の目標話者とすることで，音素バランスの取れた音声と対話らしい音声の両方を学習データとして確保できる．加えて，この方法では対話音声を大量に生成できる利点もある．本稿では，生成された対話音声データと音声合成用コーパスの発話を用いて学習された音声合成モデルが，対話として自然な音声の生成に有用であることを示す．

著者関連情報

お気に入り & アラート

閲覧履歴

Determinants of Active Transport in Emerging Megacities: A Bayesian Belief Network Framework for Sustainable Mobility Solutions

発行機関からのお知らせ

PDF閲覧時に認証を求められる記事がございます（発行後1年間）が，研究会登録メンバーは無料で閲覧可能です．認証のための購読者番号やパスワードは会員マイページにログインし「お知らせ」にてご確認下さい．メンバー以外の方は，storesにて購入いただけます．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）