複数粒度のマルチモダル情報を用いたテキスト付き画像の説明文生成

楊 巍; 植田 有咲; 杉浦 孔明

doi:10.11517/pjsai.JSAI2023.0_2G5OS21e03

抄録

画像、動画など視覚的に示された物を理解, 例えば, 実世界の画像を対象として説明文を生成する技術の実現は, 人工知能分野における重要な課題の一つである. 一般的な画像説明文生成に比べ, テキスト付き画像の説明文生成は，画像全体・画像中の物体・テキストを統合する点において挑戦的課題である. 本研究では Image captioning with reading comprehensionタスクを扱う. 提案手法では, 画像中のテキスト情報に関して文字から単語まで複数粒度かつマルチモーダル情報として統合する．また, 画像全体の大域的な視覚情報, マルチモーダルOCR特徴, 画像中の物体群, の三者を扱うマルチモーダル注意機構を導入する．提案手法はTextCapsデータセットにおいて, 既存手法を上回る結果を得た.

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）