マルチモーダル文書におけるテキストと画像の整合タスクの提案

村岡 雅康; 岡崎 直観; 小比田 涼介; 石井 悦子

doi:10.5715/jnlp.29.1198

抄録

本研究では，複数文および複数画像から成るマルチモーダル文書を理解するシステムの構築を目指し，文書内における画像を意味的に望ましいテキストに割り当てる新たなタスク Image-to-Text Matching (ITeM) を提案する．また，提案タスクのために Wikipedia から機械的に 66,947 文書および 320,200 画像からなるデータセットを構築する．提案タスクの妥当性および難易度を検証するため，既存のマルチモーダルタスクで最高精度を達成した 2 手法を本タスク向けに改良し，評価実験を行う．結果から，ベースラインの精度を大幅に上回ったものの，人間の精度に到達するには改良の余地があることを確認した．また，既存タスクに対する提案タスクの寄与度を検証する実験では顕著な差は見られなかった一方で，詳細な分析により，記事内の画像数が多くなるほど，また，画像が分散して配置される記事ほどタスクが難しくなる傾向にあることや，タスクを解くためには複数画像を同時に考慮したり画像中の物体情報を抽象化しなければならないなど，既存タスクとは異なる側面の画像理解・言語理解能力を提案タスクによって学習・評価できることが示唆された．

著者関連情報

Licensed under CC BY 4.0
https://creativecommons.org/licenses/by/4.0/

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）