Space-Time Attentionを用いた動画理解機構に基づくEnd-to-Endマルチモーダル対話応答生成

山﨑 善啓; 折橋 翔太; 増村 亮; 内田 美尋; 高島 瑛彦

doi:10.11517/pjsai.JSAI2022.0_1O5GS705

第36回 (2022)

セッションID: 1O5-GS-7-05

DOI https://doi.org/10.11517/pjsai.JSAI2022.0_1O5GS705

会議情報

主催: 一般社団法人人工知能学会

会議名: 2022年度人工知能学会全国大会（第36回）

回次: 36

開催地: 京都国際会館＋オンライン

開催日: 2022/06/14 - 2022/06/17

Space-Time Attentionを用いた動画理解機構に基づくEnd-to-Endマルチモーダル対話応答生成

*山﨑善啓, 折橋翔太, 増村亮, 内田美尋, 高島瑛彦

著者情報

キーワード: マルチモーダル対話, 動画理解, End-to-End応答生成

会議録・要旨集フリー

詳細

抄録

マルチモーダル対話システムの研究タスクとして、Audio Visual Scene-aware Dialog (AVSD)と呼ばれる与えられた音響・動画像情報に関する質問応答を行うタスクが挙げられる。AVSDに関する従来のモデルの多くは、動画像内容の理解のためにConvolutional Neural Network (CNN)に基づく動画像表現を用いて応答を生成している。CNNは時空間方向に局所的な特徴抽出を行う傾向にあるといわれている一方で、時間的に広い依存性や空間的に大域的な特徴もAVSDのモデルには必要であると考えられる。本研究では、時空間方向に大域的な表現を獲得しやすいといわれているTransformerに基づく動画像表現を用いたニューラル応答生成モデルを提案する。応答性能を評価した結果、本手法はCNNに基づく動画像表現を用いた従来法に比べて、より高い客観評価値が得られることを示した。

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）