人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 3N6-GS-7-04
会議情報

視覚大規模言語モデルの潜在力を引き出す
多層認知マップと空間情報プロンプトによる空間認知能力の向上
*馮 奇
著者情報
会議録・要旨集 フリー

詳細
抄録

本研究は、視覚大規模言語モデルの空間認知能力を調査し、その潜在能力を引き出す新たな手法を提案することを目的とする。多層的な認知マップと空間情報を含むプロンプト設計を用いることで、VLLMの空間推論能力を向上させる方法を検討した。方法として、異なる解像度の認知マップを構築し、柔軟なサイズのマップも生成した。また、空間スケールやナビゲーションに関する質問・回答ペアを設計し、モデルに提示した。評価にはVSI-Benchデータセットを用い、LLaVA-OneVisionとGemini-1.5-Flashを比較した。結果、柔軟なサイズの認知マップがLLaVA-OneVisionの性能向上に寄与した。一方、クローズドソースモデルでは追加情報が不正確な場合に性能低下を引き起こす可能性が示唆された。結論として、VLLMはローカルな空間関係を把握できる一方、グローバルな空間構造の理解には課題が残る。本研究は、特にオープンソースモデルの空間認知向上に有効であり、さらなる性能向上にはデータセット構築や専用トークンの導入が有望である。

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top