生成モデルは空間概念を捉えているか：意匠データを用いた空間理解タスクの提案

竹中 誠; 谷中 瞳

doi:10.11517/pjsai.JSAI2024.0_4Xin2111

第38回 (2024)

セッションID: 4Xin2-111

DOI https://doi.org/10.11517/pjsai.JSAI2024.0_4Xin2111

会議情報

主催: 一般社団法人人工知能学会

会議名: 2024年度人工知能学会全国大会（第38回）

回次: 38

開催地: アクトシティ浜松＋オンライン

開催日: 2024/05/28 - 2024/05/31

生成モデルは空間概念を捉えているか：意匠データを用いた空間理解タスクの提案

*竹中誠, 谷中瞳

著者情報

キーワード: 大規模言語モデル, 生成モデル, 空間概念

会議録・要旨集フリー

詳細

抄録

人間は様々な事前知識をもとに，ある物体のあらゆる方向からの見え方を想像することができる。本研究では，近年の大規模生成モデルがこの能力を有するかどうかを測るためのタスクを提案し，現行のモデルについて分析を試みる。具体的には，ある物体の正面画像と，同じ物体を別の視点から見た画像をモデルに入力し，入力した画像の視点を問うタスクとする。評価データセットは，意匠データベースのスケッチ画像と視点情報が述べられたテキストをデータソースとして構築した。実験では，GPT-4Vを対象として構築した評価データセットを用いて空間理解能力に関する分析を行う。実験の結果から，GPT-4Vの空間理解能力の可能性と課題について考察する。

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）