人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 3G5-OS-24b-04
会議情報

生活支援タスクにおける大規模視覚言語モデルと拡散確率モデルを用いた参照表現セグメンテーション
*飯岡 雄偉吉田 悠和田 唯我畑中 駿平杉浦 孔明
著者情報
会議録・要旨集 フリー

詳細
抄録

本研究では、自然言語による命令文(例:「リビングに行って、壁のラジオアートに最も近い枕をとってきて」)を理解し、その動作対象物のセグメンテーションマスクを生成するモデルを開発することを目的とする。このタスクは、(1) 指示に含まれる複数の物体に対する参照表現を理解し、(2) その表現の中から対象物に関連する表現を予測し、(3) 画素単位のセグメンテーションマスクを生成する必要があり、困難なタスクである。 本論文では、1段階目でマスクを生成し、2段階目でそれを洗練するマルチモーダルセグメンテーションモデルMDSMを提案する。我々は、並列クロスモーダル特徴抽出機構の導入に加えて、拡散モデルを言語情報を扱えるように拡張する。また本モデルの性能を検証するために、様々な対象物を含む実世界の室内環境画像と、画素単位のセグメンテーションマスクを伴う複雑な参照表現を持つ命令から構成される新しいデータセットを構築した。MDSMは、評価尺度mIoUについてベースライン手法を10.13ポイント上回った。

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top