主催: 一般社団法人 人工知能学会
会議名: 2021年度人工知能学会全国大会(第35回)
回次: 35
開催地: オンライン
開催日: 2021/06/08 - 2021/06/11
Star generative adversarial network for voice conversion (StarGAN-VC) はノンパラレルなデータを扱え,多対多の音声変換を可能とした手法である。音声変換タスクにおいて,言語情報を元通り保持することは非常に重要である.しかし,StarGAN-VCによって変換された音声はしばしば言語情報が崩れるといった問題が見られる.これはStarGAN-VCが音声変換の学習を行う際に言語情報を一切用いず,音響特徴量のみに注視して学習していることが理由として考えられる.よって,本稿ではStarGAN-VCの生成器の学習に音声認識装置 (automatic speech recognition:ASR) によって推定された音声認識結果を活用する手法StarGAN-VC+ASRを提案する.実験では,提案手法がStarGAN-VCよりも言語情報の保持を可能とすることを明らかにした.