人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 2O6-OS-16a-02
会議情報

マルチモーダル基盤モデルと最適輸送を用いたポリゴンマッチングによる参照表現セグメンテーション
*西村 喬行九曜 克之神原 元就杉浦 孔明
著者情報
会議録・要旨集 フリー

詳細
抄録

家庭環境内で物体の位置が頻繁に変化するため、ロボットが最新の物体位置を迅速かつ正確に把握することが重要である。そこで、本研究では、ユーザから与えられる指示文をもとに対象物体を特定するタスクである、OSMI-3Dタスクを扱う。視覚的基盤モデルとマルチモーダルLLMを用いた3次元点群データに基づく参照表現セグメンテーションに基づいて生活支援ロボットが家庭環境内の物体を効率的に操作するための手法を提案する。本研究における主要な新規性は、シーンナラティブモジュールを導入した点である。本モジュールでは、マルチモーダルLLMを既存の画像特徴量抽出器と組み合わせることで、画像から言語を媒介しつつ構造的な特徴量を抽出する。実験では、本手法が従来のベースライン手法よりもmean IoUおよびprecision@0.5-0.9において優れた性能を示し、OSMI-3Dタスクにおいて有効であることを確認した。

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top