自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
一般論文(査読有)
マルチモーダル文書におけるテキストと画像の整合タスクの提案
村岡 雅康岡崎 直観小比田 涼介石井 悦子
著者情報
ジャーナル フリー

2022 年 29 巻 4 号 p. 1198-1232

詳細
抄録

本研究では,複数文および複数画像から成るマルチモーダル文書を理解するシステムの構築を目指し,文書内における画像を意味的に望ましいテキストに割り当てる新たなタスク Image-to-Text Matching (ITeM) を提案する.また,提案タスクのために Wikipedia から機械的に 66,947 文書および 320,200 画像からなるデータセットを構築する.提案タスクの妥当性および難易度を検証するため,既存のマルチモーダルタスクで最高精度を達成した 2 手法を本タスク向けに改良し,評価実験を行う.結果から,ベースラインの精度を大幅に上回ったものの,人間の精度に到達するには改良の余地があることを確認した.また,既存タスクに対する提案タスクの寄与度を検証する実験では顕著な差は見られなかった一方で,詳細な分析により,記事内の画像数が多くなるほど,また,画像が分散して配置される記事ほどタスクが難しくなる傾向にあることや,タスクを解くためには複数画像を同時に考慮したり画像中の物体情報を抽象化しなければならないなど,既存タスクとは異なる側面の画像理解・言語理解能力を提案タスクによって学習・評価できることが示唆された.

著者関連情報
© 2022 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top