人工知能学会研究会資料 言語・音声理解と対話処理研究会
Online ISSN : 2436-4576
Print ISSN : 0918-5682
102回 (2024/11)
会議情報

Voice Activity Projectionモデルを用いたリアルタイム相槌予測
井上 昂治Lala DiveshSkantze Gabriel河原 達也
著者情報
会議録・要旨集 認証あり

p. 229-234

詳細
抄録

人間どうしの対話において「うん」や「へー」といった短い反応(相槌)は、対話を円滑で双方向に進行させる役割を果たしている。このような対話をシステムに実現するためには、高精度な相槌予測モデルが必要である。本研究では、Voice Activity Projection(VAP)モデルを用いたリアルタイム相槌予測を提案する。提案モデルは相槌のタイミングと種類をフレーム単位でリアルタイムに予測することができる。モデルの学習では、まず、より規模の大きい汎用的な対話データでVAPモデルを事前学習し、次に相槌予測に特化したデータセットでファインチューニングを行う。実験では、提案手法はタイミング予測と種類予測の両タスクにおいて、比較手法を上回る性能を示し、リアルタイム条件においても十分な予測精度を示した。

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top