人工知能学会全国大会論文集
Online ISSN : 2758-7347
第35回 (2021)
セッションID: 4I2-GS-7c-01
会議情報

StarGAN-VC+ASR:音声認識結果を正則化に活用した教師なし音声変換
*阪本 翔紀谷口 彰谷口 忠大亀岡 弘和
著者情報
会議録・要旨集 フリー

詳細
抄録

Star generative adversarial network for voice conversion (StarGAN-VC) はノンパラレルなデータを扱え,多対多の音声変換を可能とした手法である。音声変換タスクにおいて,言語情報を元通り保持することは非常に重要である.しかし,StarGAN-VCによって変換された音声はしばしば言語情報が崩れるといった問題が見られる.これはStarGAN-VCが音声変換の学習を行う際に言語情報を一切用いず,音響特徴量のみに注視して学習していることが理由として考えられる.よって,本稿ではStarGAN-VCの生成器の学習に音声認識装置 (automatic speech recognition:ASR) によって推定された音声認識結果を活用する手法StarGAN-VC+ASRを提案する.実験では,提案手法がStarGAN-VCよりも言語情報の保持を可能とすることを明らかにした.

著者関連情報
© 2021 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top