主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
近年登場したCLIPは,視覚と言語の相互理解を革新的に進めたモデルとして,様々なタスクで利用されている.しかし,CLIPのエンコーダが視覚的な物体間の空間関係を十分に正しく出力できないことが先行研究により指摘されている.この指摘から,CLIPの単純な利用では言語的な相対位置理解が不十分であると考えられる.そこで本研究は,CLIPを参照表現理解という空間理解を必要とするタスクに適用させたモデルであるReCLIPを参考に,相対位置理解が可能なモデルを提案する.ReCLIPが2次元的に空間関係を処理するのに対し,提案モデルは3次元的に空間関係を処理することで相対位置理解を目指す.また本研究では,向きを踏まえた相対位置について,人座標系に限定した実装となっている.RefGTAデータセットを用いた評価実験を通し,提案モデルは「前」という空間関係に対してReCLIPから1~2%の改善を示した.また,その中に含まれる人の向きを踏まえた相対位置の推論が必要なデータに対して12~13%の改善を示した.