人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 3O1-OS-16b-02
会議情報

マルチモーダルLLMおよび視覚言語基盤モデルに基づく大規模物体操作データセットにおけるタスク成功判定
*齋藤 大地神原 元就九曜 克之杉浦 孔明
著者情報
会議録・要旨集 フリー

詳細
抄録

マニピュレータによる物体操作におけるモデル性能向上のためには,高性能なタスク成功判定機構が重要である.一方で,その性能はいまだに不十分である.そこで本論文では,複数の物体操作タスクに対応可能なタスク成功判定機構を構築することを目的とする.提案手法における主要な新規性の一つであるλ-Representationは,物体の色や形状などの視覚的な特徴,自然言語にアラインされた特徴,および言語を媒介とした構造的な特徴のすべてを保持する.実験にあたり,RT-1およびVLMbenchに基づいて,物体操作タスクにおける成功判定のためのデータセットを新たに構築した.本データセットにおいて,提案手法は分類精度において全てのベースライン手法を上回る結果を得た.

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top