主催: 一般社団法人 人工知能学会
会議名: 2023年度人工知能学会全国大会(第37回)
回次: 37
開催地: 熊本城ホール+オンライン
開催日: 2023/06/06 - 2023/06/09
会議において相手の応答発話が自分の発言を支持したものであるかを知ることは、会議を円滑に進める上で重要である。 本研究では、発話テキスト・音声・話者動画のマルチモーダル情報を用いて、発話と応答のペアについて、応答が発話を支持しているかどうかを推定することを検討する。 マルチモーダル情報を考慮する方法として、異なるモーダルの特徴量を系列方向に連結して一つのTransformer Encoderに入力し各モーダルの関係性を捉える方法があるが、発話テキストに比べて音声・動画は系列長が長いため全ての系列情報を考慮することが困難であるという課題がある。 そこで、attention機構に基づくリサンプリングモジュールを音声・動画系列にそれぞれ適用し、短い系列に多くの情報を圧縮する手法について検討する。会議コーパスAMIを用いた実験では、提案手法はテキストのみのモデルと同等の精度を達成した。