主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
近年,画像や言語など複数のモダリティの情報を組み合わせて推論を行うマルチモーダルモデルが提案され,様々なマルチモーダル推論タスクにおいて高い性能を達成している.本研究ではそのようなタスクの一つである,画像と文の間の含意関係を予測するVisual-Textual Entailment(VTE)タスクに着目する.VTEタスクを解くには,画像内の情報と文の意味を理解し,それらを組み合わせて推論する必要があるため,VTEタスクはモデルのマルチモーダル推論能力を測るのに適している.マルチモーダルモデルが文に含まれる数量や否定のような言語現象をどの程度理解しているかや,英語以外の言語での推論能力については,まだ十分に評価されていない.そこで本研究では,言語現象に注目した2つの多言語VTEベンチマークを提案する.提案したベンチマークを用いて2つのマルチモーダルモデルを評価した結果,他の言語に比べて日本語の推論能力に特に課題があり,文に含まれる数量や否定の理解についても改善の余地があることが示された.