生活支援タスクにおける大規模視覚言語モデルと拡散確率モデルを用いた参照表現セグメンテーション

飯岡 雄偉; 吉田 悠; 和田 唯我; 畑中 駿平; 杉浦 孔明

doi:10.11517/pjsai.JSAI2023.0_3G5OS24b04

第37回 (2023)

セッションID: 3G5-OS-24b-04

DOI https://doi.org/10.11517/pjsai.JSAI2023.0_3G5OS24b04

会議情報

主催: 一般社団法人人工知能学会

会議名: 2023年度人工知能学会全国大会（第37回）

回次: 37

開催地: 熊本城ホール＋オンライン

開催日: 2023/06/06 - 2023/06/09

生活支援タスクにおける大規模視覚言語モデルと拡散確率モデルを用いた参照表現セグメンテーション

*飯岡雄偉, 吉田悠, 和田唯我, 畑中駿平, 杉浦孔明

著者情報

キーワード: 参照表現セグメンテーション, 拡散確率モデル, 自然言語処理, 画像処理, 物体操作

会議録・要旨集フリー

詳細

抄録

本研究では、自然言語による命令文（例：「リビングに行って、壁のラジオアートに最も近い枕をとってきて」）を理解し、その動作対象物のセグメンテーションマスクを生成するモデルを開発することを目的とする。このタスクは、(1) 指示に含まれる複数の物体に対する参照表現を理解し、(2) その表現の中から対象物に関連する表現を予測し、(3) 画素単位のセグメンテーションマスクを生成する必要があり、困難なタスクである。本論文では、1段階目でマスクを生成し、2段階目でそれを洗練するマルチモーダルセグメンテーションモデルMDSMを提案する。我々は、並列クロスモーダル特徴抽出機構の導入に加えて、拡散モデルを言語情報を扱えるように拡張する。また本モデルの性能を検証するために、様々な対象物を含む実世界の室内環境画像と、画素単位のセグメンテーションマスクを伴う複雑な参照表現を持つ命令から構成される新しいデータセットを構築した。MDSMは、評価尺度mIoUについてベースライン手法を10.13ポイント上回った。

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）