主催: 一般社団法人 人工知能学会
会議名: 2023年度人工知能学会全国大会(第37回)
回次: 37
開催地: 熊本城ホール+オンライン
開催日: 2023/06/06 - 2023/06/09
本研究では、自然言語による命令文(例:「リビングに行って、壁のラジオアートに最も近い枕をとってきて」)を理解し、その動作対象物のセグメンテーションマスクを生成するモデルを開発することを目的とする。このタスクは、(1) 指示に含まれる複数の物体に対する参照表現を理解し、(2) その表現の中から対象物に関連する表現を予測し、(3) 画素単位のセグメンテーションマスクを生成する必要があり、困難なタスクである。 本論文では、1段階目でマスクを生成し、2段階目でそれを洗練するマルチモーダルセグメンテーションモデルMDSMを提案する。我々は、並列クロスモーダル特徴抽出機構の導入に加えて、拡散モデルを言語情報を扱えるように拡張する。また本モデルの性能を検証するために、様々な対象物を含む実世界の室内環境画像と、画素単位のセグメンテーションマスクを伴う複雑な参照表現を持つ命令から構成される新しいデータセットを構築した。MDSMは、評価尺度mIoUについてベースライン手法を10.13ポイント上回った。