人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 4R2-OS-22a-03
会議情報

会議発話間の関係性推定に向けた効率的な音声・動画情報の活用の検討
*大杉 康仁小瀬木 悠佳立石 修平狩野 悌久中辻 真
著者情報
会議録・要旨集 フリー

詳細
抄録

会議において相手の応答発話が自分の発言を支持したものであるかを知ることは、会議を円滑に進める上で重要である。 本研究では、発話テキスト・音声・話者動画のマルチモーダル情報を用いて、発話と応答のペアについて、応答が発話を支持しているかどうかを推定することを検討する。 マルチモーダル情報を考慮する方法として、異なるモーダルの特徴量を系列方向に連結して一つのTransformer Encoderに入力し各モーダルの関係性を捉える方法があるが、発話テキストに比べて音声・動画は系列長が長いため全ての系列情報を考慮することが困難であるという課題がある。 そこで、attention機構に基づくリサンプリングモジュールを音声・動画系列にそれぞれ適用し、短い系列に多くの情報を圧縮する手法について検討する。会議コーパスAMIを用いた実験では、提案手法はテキストのみのモデルと同等の精度を達成した。

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top