変分自己符号化器を用いた表現の多様性のモデル化による表現豊かな音声合成

阿久澤 圭; 岩澤 有祐; 松尾 豊

doi:10.11517/pjsai.JSAI2018.0_2N101

第32回 (2018)

セッションID: 2N1-01

DOI https://doi.org/10.11517/pjsai.JSAI2018.0_2N101

会議情報

主催: 一般社団法人人工知能学会

会議名: 2018年度人工知能学会全国大会（第32回）

回次: 32

開催地: 鹿児島県鹿児島市城山ホテル鹿児島

開催日: 2018/06/05 - 2018/06/08

変分自己符号化器を用いた表現の多様性のモデル化による表現豊かな音声合成

*阿久澤圭, 岩澤有祐, 松尾豊

著者情報

会議録・要旨集フリー

詳細

抄録

近年深層学習を用いた自己回帰生成モデルは音声合成の性能を向上させている．しかし，自己回帰生成モデルに基づいた音声合成システムに表現の豊かさを備えさせることは，自己回帰生成モデルが話者性，話し方といった音声の大域的な特徴を学習するのが苦手であることから，まだ未解決の問題となっている．本稿では，VAEと自己回帰モデルの一つであるVoiceLoopを統合したモデルVAE-Loopを提案する．従来の自己回帰生成モデルに基づいた音声合成モデルと違い，提案手法は音声の大域的な特徴をVAEによって明示的にモデル化することができる． VCTKやBlizzard2012を用いた実験では，VAEが学習した大域的な特徴を用いることで，VoiceLoopがより高品質な音声を生成すること，及び表現をコントロールできることを示す．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）