人工知能学会全国大会論文集
Online ISSN : 2758-7347
第34回 (2020)
セッションID: 3Q5-GS-9-01
会議情報

マルチモーダル深層学習を用いた画像とテキストの意味理解に基づく整合性判定
鈴木 莉子*小西 幹人池田 順哉林 大地深井 颯菅原 優町井 湧介山浦 佑介
著者情報
会議録・要旨集 フリー

詳細
抄録

ドキュメントに含まれる画像はテキストの内容理解を助ける役割を持つが、画像とテキストの間に整合性が無い場合は、読み手の理解を妨げる恐れがある。ドキュメント作成時の人的ミスやデータの改ざん等により、画像に対してテキストの意味が部分的に変わってしまう場合は、作成者が矛盾点に気付きにくいため、意図せずドキュメントの品質を落としてしまう可能性もある。本研究では、マルチモーダル深層学習を用いて、画像とテキストの整合性判定を行い、画像の物体領域とテキストの単語の関連性を学習するCross Attentionにより、画像とテキストの矛盾点を可視化するモデルを構築する。画像とキャプションが対になったデータセットを元に、キャプションの意味を部分的に変更したデータセットを作成し、提案モデルの有効性を検証すると共に、Cross Attentionにより可視化される画像とテキストの対応関係について考察する。

著者関連情報
© 2020 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top