マルチモーダル特徴量を用いた談話セグメントの検出

冨山 健; 二瓶 芙巳雄; 高瀬 裕; 中野 有紀子

doi:10.11517/pjsai.JSAI2019.0_4F3OS11b02

第33回 (2019)

セッションID: 4F3-OS-11b-02

DOI https://doi.org/10.11517/pjsai.JSAI2019.0_4F3OS11b02

会議情報

主催: 一般社団法人人工知能学会

会議名: 2019年度人工知能学会全国大会（第33回）

回次: 33

開催地: 新潟県新潟市朱鷺メッセ

開催日: 2019/06/04 - 2019/06/07

マルチモーダル特徴量を用いた談話セグメントの検出

冨山健, *二瓶芙巳雄, 高瀬裕, 中野有紀子

著者情報

キーワード: 会話セグメンテーション, マルチモーダル, グループ議論

会議録・要旨集フリー

詳細

抄録

本研究ではグループディスカッションにおける会話のセグメント境界を検出するモデルを提案する．まず，AutoEncoderを使用してマルチモーダルな埋め込み空間を作成し，類似度によるアプローチを適用し会話の境界を検出した．次に，会話境界のアノテーション作業を実施し，言語，音声，そして頭部動作情報のためのユニモーダルCNNモデルを作成した．そしてユニモーダルモデルの出力を連結し，マルチモーダルモデルを作成した．評価実験により，言語情報が最も有用なモダリティであること，さらに音声と頭部動作のモダリティと組み合わせることにより，CNNベースのモデルは会話の境界をより正確に予測することを明らかとした．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）