人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 2L1-OS-9a-03
会議情報

音声感情認識のための学習データ拡張手法の検討および分析
*目良 和也坂根 剛黒澤 義明竹澤 寿幸
著者情報
会議録・要旨集 フリー

詳細
抄録

近年,機械学習を用いた音声感情認識に関する研究が注目されつつある.そして,音声収集や感情ラベリングの容易さから,学習データとして演技感情音声データがよく用いられている.しかし,演技者の属性や必要な感情クラスなどが多種多様であるため,システム構築者の目的に合った音声データを十分に収集することは容易でない. そこで学習データの量を増やす方法の1つとして,データ拡張(data augmentation)が挙げられる.音声認識や画像認識の分野ではさまざまなデータ拡張手法が提案されてきたが,感情音声に有効なデータ拡張手法の比較検討は行われていない. そこで本発表では,音声感情認識における感情音声に対するデータ拡張手法について比較検討する.対象とするデータ拡張手法は,時間マスキング,時間伸縮,周波数マスキング,周波数伸縮,声質変換,感情音声結合の6種類とする.各データ拡張手法の有効性について機械学習器による4感情分類実験を行った結果,時間マスキング,声質変換,感情音声結合が有効であることが示された.そして,複数の手法を組み合わせることでさらに性能が向上することも確認できた.

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top