Diffusion Policyによる視覚言語条件付きロボット制御

黄瀬 輝; 小栗 滉貴; 加賀屋 智之; 奥村 亮; 谷口 忠大

doi:10.11517/pjsai.JSAI2024.0_4O3OS16e02

第38回 (2024)

セッションID: 4O3-OS-16e-02

DOI https://doi.org/10.11517/pjsai.JSAI2024.0_4O3OS16e02

会議情報

主催: 一般社団法人人工知能学会

会議名: 2024年度人工知能学会全国大会（第38回）

回次: 38

開催地: アクトシティ浜松＋オンライン

開催日: 2024/05/28 - 2024/05/31

Diffusion Policyによる視覚言語条件付きロボット制御

*黄瀬輝, 小栗滉貴, 加賀屋智之, 奥村亮, 谷口忠大

著者情報

キーワード: ロボティクス, 拡散モデル

会議録・要旨集フリー

詳細

抄録

人間の言語を理解し，それに基づいて自律的に行動を決定できるロボットの実現はロボティクスと機械学習の分野における重要な研究課題である．ロボットが人間の抽象的な指示に含まれる意図を的確に捉え，適切な制御を実行する事ができれば，人間への支援やタスク実行の効率が大幅に向上することが期待される．本論文では，人間の言語指示やゴール画像に基づいて自律的に行動を決定するロボット制御の学習手法，Vision-Language-conditioned Diffusion Policy (VLDP)を提案する．従来の言語に基づくロボット制御手法では，人間の言語が持つ本質的な曖昧性や多義性を充分にモデル化することができなかった．VLDPは，この問題に対処するため，視覚言語モデルを通じて人間の言語指示やゴール画像からセマンティクスを抽出し，Diffusion Policyに条件付けすることで，言語の曖昧性を含む指示に対してもロボットが複数の有効な行動を生成する能力を獲得する．実験では，提案手法の言語指示に基づく行動生成の成功率，未知の言語指示への適応能力，および行動の多峰性を評価する．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）