人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 4C3-GS-11-04
会議情報

多様な言語現象を考慮した多言語VTEベンチマークの提案
*五百川 展行WIJNHOLDS Gijs谷中 瞳
著者情報
会議録・要旨集 フリー

詳細
抄録

近年,画像や言語など複数のモダリティの情報を組み合わせて推論を行うマルチモーダルモデルが提案され,様々なマルチモーダル推論タスクにおいて高い性能を達成している.本研究ではそのようなタスクの一つである,画像と文の間の含意関係を予測するVisual-Textual Entailment(VTE)タスクに着目する.VTEタスクを解くには,画像内の情報と文の意味を理解し,それらを組み合わせて推論する必要があるため,VTEタスクはモデルのマルチモーダル推論能力を測るのに適している.マルチモーダルモデルが文に含まれる数量や否定のような言語現象をどの程度理解しているかや,英語以外の言語での推論能力については,まだ十分に評価されていない.そこで本研究では,言語現象に注目した2つの多言語VTEベンチマークを提案する.提案したベンチマークを用いて2つのマルチモーダルモデルを評価した結果,他の言語に比べて日本語の推論能力に特に課題があり,文に含まれる数量や否定の理解についても改善の余地があることが示された.

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top