ReCLIPを基にした人座標系における相対位置理解が可能な基盤モデル

池ヶ谷 健太; 田口 亮

doi:10.11517/pjsai.JSAI2024.0_4Xin224

抄録

近年登場したCLIPは，視覚と言語の相互理解を革新的に進めたモデルとして，様々なタスクで利用されている．しかし，CLIPのエンコーダが視覚的な物体間の空間関係を十分に正しく出力できないことが先行研究により指摘されている．この指摘から，CLIPの単純な利用では言語的な相対位置理解が不十分であると考えられる．そこで本研究は，CLIPを参照表現理解という空間理解を必要とするタスクに適用させたモデルであるReCLIPを参考に，相対位置理解が可能なモデルを提案する．ReCLIPが2次元的に空間関係を処理するのに対し，提案モデルは3次元的に空間関係を処理することで相対位置理解を目指す．また本研究では，向きを踏まえた相対位置について，人座標系に限定した実装となっている．RefGTAデータセットを用いた評価実験を通し，提案モデルは「前」という空間関係に対してReCLIPから1~2%の改善を示した．また，その中に含まれる人の向きを踏まえた相対位置の推論が必要なデータに対して12~13%の改善を示した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）