パラ言語情報を考慮可能なSpeech-to-Text対話システムの検討

中畔 彪雅; 河野 誠也; Kruengkrai Canasai; Contreras Angel; 千葉 祐弥; 杉山 弘晃; 吉野 幸一郎

doi:10.11517/jsaislud.102.0_34

102回 (2024/11)

DOI https://doi.org/10.11517/jsaislud.102.0_34

会議情報

主催: 人工知能学会

会議名: 第102回言語・音声理解と対話処理研究会

回次: 102

開催地: 国立国語研究所講堂

開催日: 2024/11/28 - 2024/11/29

パラ言語情報を考慮可能なSpeech-to-Text対話システムの検討

中畔彪雅, 河野誠也, Kruengkrai Canasai, Contreras Angel, 千葉祐弥, 杉山弘晃, 吉野幸一郎

著者情報

会議録・要旨集フリー

p. 34-39

詳細

抄録

大規模言語モデルの登場により，音声対話をはじめとする多種多様な自然言語タスクを処理可能となった．既存の音声対話システムの多くが複数のモジュールを組み合わせたカスケード型モデルによって実現されており，対話処理の過程で音声をテキスト化している．この際，テキスト化されない音声情報であるパラ言語が欠落する課題があった．パラ言語情報は感情などを含んだ自然な音声対話の実現に必要である．そこで本研究では，音声を埋め込み表現により処理するEnd-to-End型のSpeech-to-Text対話モデルを構築した．実験では，提案モデルでパラ言語理解が実現できていることを確認するため，同じテキストを異なる感情（幸せ・怒り・悲しみ・平静・中立）で読み上げた音声データセットを入力として用い，その出力結果の異なりを評価した．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）