人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 2G5-OS-21e-03
会議情報

複数粒度のマルチモダル情報を用いたテキスト付き画像の説明文生成
*楊 巍植田 有咲杉浦 孔明
著者情報
会議録・要旨集 フリー

詳細
抄録

画像、動画など視覚的に示された物を理解, 例えば, 実世界の画像を対象として説明文を生成する技術の実現は, 人工知能分野における重要な課題の一つである. 一般的な画像説明文生成に比べ, テキスト付き画像の説明文生成は,画像全体・画像中の物体・テキストを統合する点において挑戦的課題である. 本研究では Image captioning with reading comprehensionタスクを扱う. 提案手法では, 画像中のテキスト情報に関して文字から単語まで複数粒度かつマルチモーダル情報として統合する.また, 画像全体の大域的な視覚情報, マルチモーダルOCR特徴, 画像中の物体群, の三者を扱うマルチモーダル注意機構を導入する.提案手法はTextCapsデータセットにおいて, 既存手法を上回る結果を得た.

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top