人工知能学会研究会資料 言語・音声理解と対話処理研究会
Online ISSN : 2436-4576
Print ISSN : 0918-5682
102回 (2024/11)
会議情報

パラ言語情報を考慮可能なSpeech-to-Text対話システムの検討
中畔 彪雅河野 誠也Kruengkrai CanasaiContreras Angel千葉 祐弥杉山 弘晃吉野 幸一郎
著者情報
会議録・要旨集 フリー

p. 34-39

詳細
抄録

大規模言語モデルの登場により,音声対話をはじめとする多種多様な自然言語タスクを処理可能となった.既存の音声対話システムの多くが複数のモジュールを組み合わせたカスケード型モデルによって実現されており,対話処理の過程で音声をテキスト化している.この際,テキスト化されない音声情報であるパラ言語が欠落する課題があった.パラ言語情報は感情などを含んだ自然な音声対話の実現に必要である.そこで本研究では,音声を埋め込み表現により処理するEnd-to-End型のSpeech-to-Text対話モデルを構築した.実験では,提案モデルでパラ言語理解が実現できていることを確認するため,同じテキストを異なる感情(幸せ・怒り・悲しみ・平静・中立)で読み上げた音声データセットを入力として用い,その出力結果の異なりを評価した.

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top