人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 4Xin2-24
会議情報

ReCLIPを基にした人座標系における相対位置理解が可能な基盤モデル
*池ヶ谷 健太田口 亮
著者情報
キーワード: マルチモーダルAI
会議録・要旨集 フリー

詳細
抄録

近年登場したCLIPは,視覚と言語の相互理解を革新的に進めたモデルとして,様々なタスクで利用されている.しかし,CLIPのエンコーダが視覚的な物体間の空間関係を十分に正しく出力できないことが先行研究により指摘されている.この指摘から,CLIPの単純な利用では言語的な相対位置理解が不十分であると考えられる.そこで本研究は,CLIPを参照表現理解という空間理解を必要とするタスクに適用させたモデルであるReCLIPを参考に,相対位置理解が可能なモデルを提案する.ReCLIPが2次元的に空間関係を処理するのに対し,提案モデルは3次元的に空間関係を処理することで相対位置理解を目指す.また本研究では,向きを踏まえた相対位置について,人座標系に限定した実装となっている.RefGTAデータセットを用いた評価実験を通し,提案モデルは「前」という空間関係に対してReCLIPから1~2%の改善を示した.また,その中に含まれる人の向きを踏まえた相対位置の推論が必要なデータに対して12~13%の改善を示した.

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top