StarGAN-VCを用いた話者非依存音響特徴量抽出と二重分節解析への応用

小村 漱一朗; 林 楓; 谷口 彰; 谷口 忠大; 亀岡 弘和

doi:10.11517/pjsai.JSAI2021.0_4I2GS7c02

第35回 (2021)

セッションID: 4I2-GS-7c-02

DOI https://doi.org/10.11517/pjsai.JSAI2021.0_4I2GS7c02

会議情報

主催: 一般社団法人人工知能学会

会議名: 2021年度人工知能学会全国大会（第35回）

回次: 35

開催地: オンライン

開催日: 2021/06/08 - 2021/06/11

StarGAN-VCを用いた話者非依存音響特徴量抽出と二重分節解析への応用

*小村漱一朗, 林楓, 谷口彰, 谷口忠大, 亀岡弘和

著者情報

キーワード: 二重分節構造解析器, StarGAN-VC, Neuro-SERKET, 教師なし学習

会議録・要旨集フリー

詳細

抄録

教師なし学習によって連続的音声から音素および語彙の獲得を行う手法の一つに二重分節構造解析器 (Nonparametric Bayesian double articulation analyzer: NPB-DAA) がある．NPB-DAAでは音響特徴量の話者依存性は複数話者からなる音声データセットの学習において問題とされる．本研究の目的はStar generative adversarial network for voice conversion (StarGAN-VC) を話者非依存音響特徴量の抽出を行うモデルとして活用し，Neuro-SERKERTを用いたNPB-DAAとStarGAN-VCの相互学習による最適化が可能な統合モデルの構築を行うことである．NPB-DAAとStarGAN-VCの統合モデルにおける相互学習の有効性について実験を通して検証を行った．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）