会議発話間の関係性推定に向けた効率的な音声・動画情報の活用の検討

大杉 康仁; 小瀬木 悠佳; 立石 修平; 狩野 悌久; 中辻 真

doi:10.11517/pjsai.JSAI2023.0_4R2OS22a03

第37回 (2023)

セッションID: 4R2-OS-22a-03

DOI https://doi.org/10.11517/pjsai.JSAI2023.0_4R2OS22a03

会議情報

主催: 一般社団法人人工知能学会

会議名: 2023年度人工知能学会全国大会（第37回）

回次: 37

開催地: 熊本城ホール＋オンライン

開催日: 2023/06/06 - 2023/06/09

会議発話間の関係性推定に向けた効率的な音声・動画情報の活用の検討

*大杉康仁, 小瀬木悠佳, 立石修平, 狩野悌久, 中辻真

著者情報

キーワード: マルチモーダル, グループインタラクション, 議論マイニング

会議録・要旨集フリー

詳細

抄録

会議において相手の応答発話が自分の発言を支持したものであるかを知ることは、会議を円滑に進める上で重要である。本研究では、発話テキスト・音声・話者動画のマルチモーダル情報を用いて、発話と応答のペアについて、応答が発話を支持しているかどうかを推定することを検討する。マルチモーダル情報を考慮する方法として、異なるモーダルの特徴量を系列方向に連結して一つのTransformer Encoderに入力し各モーダルの関係性を捉える方法があるが、発話テキストに比べて音声・動画は系列長が長いため全ての系列情報を考慮することが困難であるという課題がある。そこで、attention機構に基づくリサンプリングモジュールを音声・動画系列にそれぞれ適用し、短い系列に多くの情報を圧縮する手法について検討する。会議コーパスAMIを用いた実験では、提案手法はテキストのみのモデルと同等の精度を達成した。

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）