モデル検査と知識補完を用いた数量表現に関するマルチモーダル推論

五百川 展行; 谷中 瞳

doi:10.11517/pjsai.JSAI2023.0_1E4GS601

抄録

近年，異なるモダリティ間での推論が盛んに研究されている．本研究では，マルチモーダル推論の重要なタスクの一つであるVisual-Textual Entailment (VTE)を対象とする．VTEは画像と文章との間の含意関係を認識するタスクである．VTEタスクを解く手法として，深層学習を使った様々な手法が提案されているが，それらは数量を正確に扱うことに課題がある．一方で，論理推論に基づく手法では数量を頑健に扱えるが，既存手法では自動定理証明器を用いており，大きな数量を伴う推論を行う際に高い計算コストが必要となる．そこで，本論文ではモデル検査と知識補完を用いたVTEシステムを提案する．提案手法では，まず画像と文を一階述語論理のモデルと論理式にそれぞれ変換する．そして，必要な知識を補完して画像のモデルに対して文の論理式の真偽をモデル検査で判定し，論理推論を行う．また，提案手法の性能を評価するために，数量や否定を含むVTEタスクの評価データセットを構築する．このデータセットを用いて，提案手法が従来の手法よりも数量や否定を含むVTEタスクを頑健に解けることを示す．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）