マルチモーダル深層学習を用いた画像とテキストの意味理解に基づく整合性判定

鈴木 莉子; 小西 幹人; 池田 順哉; 林 大地; 深井 颯; 菅原 優; 町井 湧介; 山浦 佑介

doi:10.11517/pjsai.JSAI2020.0_3Q5GS901

第34回 (2020)

セッションID: 3Q5-GS-9-01

DOI https://doi.org/10.11517/pjsai.JSAI2020.0_3Q5GS901

会議情報

主催: 一般社団法人人工知能学会

会議名: 第34回全国大会(2020)

回次: 34

開催地: Online

開催日: 2020/06/09 - 2020/06/12

マルチモーダル深層学習を用いた画像とテキストの意味理解に基づく整合性判定

鈴木莉子, *小西幹人, 池田順哉, 林大地, 深井颯, 菅原優, 町井湧介, 山浦佑介

著者情報

キーワード: マルチモーダル, 深層学習, 自然言語処理, 画像認識, クロスアテンション

会議録・要旨集フリー

詳細

抄録

ドキュメントに含まれる画像はテキストの内容理解を助ける役割を持つが、画像とテキストの間に整合性が無い場合は、読み手の理解を妨げる恐れがある。ドキュメント作成時の人的ミスやデータの改ざん等により、画像に対してテキストの意味が部分的に変わってしまう場合は、作成者が矛盾点に気付きにくいため、意図せずドキュメントの品質を落としてしまう可能性もある。本研究では、マルチモーダル深層学習を用いて、画像とテキストの整合性判定を行い、画像の物体領域とテキストの単語の関連性を学習するCross Attentionにより、画像とテキストの矛盾点を可視化するモデルを構築する。画像とキャプションが対になったデータセットを元に、キャプションの意味を部分的に変更したデータセットを作成し、提案モデルの有効性を検証すると共に、Cross Attentionにより可視化される画像とテキストの対応関係について考察する。

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）