主催: 人工知能学会
会議名: 第102回言語・音声理解と対話処理研究会
回次: 102
開催地: 国立国語研究所 講堂
開催日: 2024/11/28 - 2024/11/29
p. 34-39
大規模言語モデルの登場により,音声対話をはじめとする多種多様な自然言語タスクを処理可能となった.既存の音声対話システムの多くが複数のモジュールを組み合わせたカスケード型モデルによって実現されており,対話処理の過程で音声をテキスト化している.この際,テキスト化されない音声情報であるパラ言語が欠落する課題があった.パラ言語情報は感情などを含んだ自然な音声対話の実現に必要である.そこで本研究では,音声を埋め込み表現により処理するEnd-to-End型のSpeech-to-Text対話モデルを構築した.実験では,提案モデルでパラ言語理解が実現できていることを確認するため,同じテキストを異なる感情(幸せ・怒り・悲しみ・平静・中立)で読み上げた音声データセットを入力として用い,その出力結果の異なりを評価した.