主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
人間は様々な事前知識をもとに,ある物体のあらゆる方向からの見え方を想像することができる。本研究では,近年の大規模生成モデルがこの能力を有するかどうかを測るためのタスクを提案し,現行のモデルについて分析を試みる。具体的には,ある物体の正面画像と,同じ物体を別の視点から見た画像をモデルに入力し,入力した画像の視点を問うタスクとする。評価データセットは,意匠データベースのスケッチ画像と視点情報が述べられたテキストをデータソースとして構築した。実験では,GPT-4Vを対象として構築した評価データセットを用いて空間理解能力に関する分析を行う。実験の結果から,GPT-4Vの空間理解能力の可能性と課題について考察する。