人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 4Xin2-111
会議情報

生成モデルは空間概念を捉えているか:意匠データを用いた空間理解タスクの提案
*竹中 誠谷中 瞳
著者情報
会議録・要旨集 フリー

詳細
抄録

人間は様々な事前知識をもとに,ある物体のあらゆる方向からの見え方を想像することができる。本研究では,近年の大規模生成モデルがこの能力を有するかどうかを測るためのタスクを提案し,現行のモデルについて分析を試みる。具体的には,ある物体の正面画像と,同じ物体を別の視点から見た画像をモデルに入力し,入力した画像の視点を問うタスクとする。評価データセットは,意匠データベースのスケッチ画像と視点情報が述べられたテキストをデータソースとして構築した。実験では,GPT-4Vを対象として構築した評価データセットを用いて空間理解能力に関する分析を行う。実験の結果から,GPT-4Vの空間理解能力の可能性と課題について考察する。

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top