デバイス技術の進化により,取り扱うデータの量,種類ともに増加の一途にあり,画像や言語,三次元情報など,異なるモダリティ(データ形式)を統合的に扱えるマルチモーダルモデルの重要性が増している.VisionTransformer(ViT)はコンピュータビジョン分野において基盤モデルとして確立されており,特に,RGB情報とその深度の情報(Depth)を併せたデータであるRGB-Dデータを扱うために,エンコーダ出力を融合させたViTなどが提案されている.RGB-Dデータを用いた予測モデルは自動運転や拡張現実といった応用領域で需要が高まっている一方で,従来手法では異なるモダリティに対して一貫した解釈が要求される場面において課題が残る.例えば自動運転において歩行者を識別するとき,深度エンコーダが歩行者に注目している一方で,RGBエンコーダが歩行者にほとんど注目していないなど,モダリティ間で注目箇所の矛盾が生じるとき,モデルの解釈・信頼性が失われるだけでなく,誤分類や不安定性の原因になる.本研究ではモダリティ間で注目箇所の矛盾を軽減し,解釈の一貫性を担保するモデルを提案する.