マルチモーダルLLMおよび視覚言語基盤モデルに基づく大規模物体操作データセットにおけるタスク成功判定

齋藤 大地; 神原 元就; 九曜 克之; 杉浦 孔明

doi:10.11517/pjsai.JSAI2024.0_3O1OS16b02

第38回 (2024)

セッションID: 3O1-OS-16b-02

DOI https://doi.org/10.11517/pjsai.JSAI2024.0_3O1OS16b02

会議情報

主催: 一般社団法人人工知能学会

会議名: 2024年度人工知能学会全国大会（第38回）

回次: 38

開催地: アクトシティ浜松＋オンライン

開催日: 2024/05/28 - 2024/05/31

マルチモーダルLLMおよび視覚言語基盤モデルに基づく大規模物体操作データセットにおけるタスク成功判定

*齋藤大地, 神原元就, 九曜克之, 杉浦孔明

著者情報

キーワード: マニピュレータ, 物体操作, Vision-and-Language, マルチモーダルLLM, タスク成功判定

会議録・要旨集フリー

詳細

抄録

マニピュレータによる物体操作におけるモデル性能向上のためには，高性能なタスク成功判定機構が重要である．一方で，その性能はいまだに不十分である．そこで本論文では，複数の物体操作タスクに対応可能なタスク成功判定機構を構築することを目的とする．提案手法における主要な新規性の一つであるλ-Representationは，物体の色や形状などの視覚的な特徴，自然言語にアラインされた特徴，および言語を媒介とした構造的な特徴のすべてを保持する．実験にあたり，RT-1およびVLMbenchに基づいて，物体操作タスクにおける成功判定のためのデータセットを新たに構築した．本データセットにおいて，提案手法は分類精度において全てのベースライン手法を上回る結果を得た．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）