主催: 一般社団法人 人工知能学会
会議名: 2025年度人工知能学会全国大会(第39回)
回次: 39
開催地: 大阪国際会議場+オンライン
開催日: 2025/05/27 - 2025/05/30
本研究は、視覚大規模言語モデルの空間認知能力を調査し、その潜在能力を引き出す新たな手法を提案することを目的とする。多層的な認知マップと空間情報を含むプロンプト設計を用いることで、VLLMの空間推論能力を向上させる方法を検討した。方法として、異なる解像度の認知マップを構築し、柔軟なサイズのマップも生成した。また、空間スケールやナビゲーションに関する質問・回答ペアを設計し、モデルに提示した。評価にはVSI-Benchデータセットを用い、LLaVA-OneVisionとGemini-1.5-Flashを比較した。結果、柔軟なサイズの認知マップがLLaVA-OneVisionの性能向上に寄与した。一方、クローズドソースモデルでは追加情報が不正確な場合に性能低下を引き起こす可能性が示唆された。結論として、VLLMはローカルな空間関係を把握できる一方、グローバルな空間構造の理解には課題が残る。本研究は、特にオープンソースモデルの空間認知向上に有効であり、さらなる性能向上にはデータセット構築や専用トークンの導入が有望である。