多様な言語現象を考慮した多言語VTEベンチマークの提案

五百川 展行; WIJNHOLDS Gijs; 谷中 瞳

doi:10.11517/pjsai.JSAI2024.0_4C3GS1104

抄録

近年，画像や言語など複数のモダリティの情報を組み合わせて推論を行うマルチモーダルモデルが提案され，様々なマルチモーダル推論タスクにおいて高い性能を達成している．本研究ではそのようなタスクの一つである，画像と文の間の含意関係を予測するVisual-Textual Entailment（VTE）タスクに着目する．VTEタスクを解くには，画像内の情報と文の意味を理解し，それらを組み合わせて推論する必要があるため，VTEタスクはモデルのマルチモーダル推論能力を測るのに適している．マルチモーダルモデルが文に含まれる数量や否定のような言語現象をどの程度理解しているかや，英語以外の言語での推論能力については，まだ十分に評価されていない．そこで本研究では，言語現象に注目した2つの多言語VTEベンチマークを提案する．提案したベンチマークを用いて2つのマルチモーダルモデルを評価した結果，他の言語に比べて日本語の推論能力に特に課題があり，文に含まれる数量や否定の理解についても改善の余地があることが示された．

著者関連情報

お気に入り & アラート

閲覧履歴

Digital Redesign of State-Delayed Systems Counting the Computer-Control Delay via Law of Mean

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）