人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 1G3-GS-6-04
会議情報

連続表現を用いたSpeech-to-Text対話モデルの構築
*中畔 彪雅河野 誠也CONTRERAS Angel吉野 幸一郎
著者情報
会議録・要旨集 フリー

詳細
抄録

大規模言語モデルは柔軟性が高く,多種多様な自然言語タスクを処理できる.大規模言語モデルを用いて構築した対話モデルと音声認識システムや音声合成システムなどの他モジュールを連結することで,音声による対話が可能となった.しかし,このような複数モジュールを連結したカスケード型のモデルは複雑で,前モジュールからの誤差を蓄積しやすいという問題がある.また,音声を離散的な表現に変換して大規模言語モデルに入力しているため,本来は連続的な表現である音声が持つパラ言語などの情報が欠落している可能性がある.本研究では,入力音声を連続的な表現のベクトルに変換して対話モデルに連結することで,これらの問題を解決することを目指した.実験結果として,生成文は対話コンテキストが十分に考慮されておらず,改善の余地が見られたが,自然な文章の生成は学習されていることから,連続表現を用いた対話モデルが実現可能であることを示唆していると考える.

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top