主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
近年,機械学習を用いた音声感情認識に関する研究が注目されつつある.そして,音声収集や感情ラベリングの容易さから,学習データとして演技感情音声データがよく用いられている.しかし,演技者の属性や必要な感情クラスなどが多種多様であるため,システム構築者の目的に合った音声データを十分に収集することは容易でない. そこで学習データの量を増やす方法の1つとして,データ拡張(data augmentation)が挙げられる.音声認識や画像認識の分野ではさまざまなデータ拡張手法が提案されてきたが,感情音声に有効なデータ拡張手法の比較検討は行われていない. そこで本発表では,音声感情認識における感情音声に対するデータ拡張手法について比較検討する.対象とするデータ拡張手法は,時間マスキング,時間伸縮,周波数マスキング,周波数伸縮,声質変換,感情音声結合の6種類とする.各データ拡張手法の有効性について機械学習器による4感情分類実験を行った結果,時間マスキング,声質変換,感情音声結合が有効であることが示された.そして,複数の手法を組み合わせることでさらに性能が向上することも確認できた.