視覚大規模言語モデルの潜在力を引き出す 多層認知マップと空間情報プロンプトによる空間認知能力の向上

馮 奇

doi:10.11517/pjsai.JSAI2025.0_3N6GS704

抄録

本研究は、視覚大規模言語モデルの空間認知能力を調査し、その潜在能力を引き出す新たな手法を提案することを目的とする。多層的な認知マップと空間情報を含むプロンプト設計を用いることで、VLLMの空間推論能力を向上させる方法を検討した。方法として、異なる解像度の認知マップを構築し、柔軟なサイズのマップも生成した。また、空間スケールやナビゲーションに関する質問・回答ペアを設計し、モデルに提示した。評価にはVSI-Benchデータセットを用い、LLaVA-OneVisionとGemini-1.5-Flashを比較した。結果、柔軟なサイズの認知マップがLLaVA-OneVisionの性能向上に寄与した。一方、クローズドソースモデルでは追加情報が不正確な場合に性能低下を引き起こす可能性が示唆された。結論として、VLLMはローカルな空間関係を把握できる一方、グローバルな空間構造の理解には課題が残る。本研究は、特にオープンソースモデルの空間認知向上に有効であり、さらなる性能向上にはデータセット構築や専用トークンの導入が有望である。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）