主催: 一般社団法人 人工知能学会
会議名: 2023年度人工知能学会全国大会(第37回)
回次: 37
開催地: 熊本城ホール+オンライン
開催日: 2023/06/06 - 2023/06/09
画像、動画など視覚的に示された物を理解, 例えば, 実世界の画像を対象として説明文を生成する技術の実現は, 人工知能分野における重要な課題の一つである. 一般的な画像説明文生成に比べ, テキスト付き画像の説明文生成は,画像全体・画像中の物体・テキストを統合する点において挑戦的課題である. 本研究では Image captioning with reading comprehensionタスクを扱う. 提案手法では, 画像中のテキスト情報に関して文字から単語まで複数粒度かつマルチモーダル情報として統合する.また, 画像全体の大域的な視覚情報, マルチモーダルOCR特徴, 画像中の物体群, の三者を扱うマルチモーダル注意機構を導入する.提案手法はTextCapsデータセットにおいて, 既存手法を上回る結果を得た.