StarGAN-VC+ASR：音声認識結果を正則化に活用した教師なし音声変換

阪本 翔紀; 谷口 彰; 谷口 忠大; 亀岡 弘和

doi:10.11517/pjsai.JSAI2021.0_4I2GS7c01

抄録

Star generative adversarial network for voice conversion (StarGAN-VC) はノンパラレルなデータを扱え，多対多の音声変換を可能とした手法である。音声変換タスクにおいて，言語情報を元通り保持することは非常に重要である．しかし，StarGAN-VCによって変換された音声はしばしば言語情報が崩れるといった問題が見られる．これはStarGAN-VCが音声変換の学習を行う際に言語情報を一切用いず，音響特徴量のみに注視して学習していることが理由として考えられる．よって，本稿ではStarGAN-VCの生成器の学習に音声認識装置 (automatic speech recognition：ASR) によって推定された音声認識結果を活用する手法StarGAN-VC+ASRを提案する．実験では，提案手法がStarGAN-VCよりも言語情報の保持を可能とすることを明らかにした．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）