人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 4A3-GS-6-04
会議情報

画像キャプショニングは画像そのものよりも多くを語る
有働 帆乃璃*越仲 孝文
著者情報
キーワード: CNN, Transformer, BERT
会議録・要旨集 フリー

詳細
抄録

画像から説明文を生成する画像キャプショニング技術(image-to-text)は,深層学習が登場して以降急速に発展している.この画像キャプショニングによって生成される説明文において,元の画像がもつ情報はどの程度維持されるだろうか? この問いに答えるため,画像を一切見ずに説明文のみから画像を分類する実験を行い,標準的なCNNベースの画像分類との精度比較を行う.災害画像分類タスク,CrisisNLPにおいていくつかの画像キャプショニングモデルを評価し,説明文による分類器が時にCNNベースの分類器を超える精度を達成できることを示す.さらに,CNNベースの分類器と説明文による分類器を統合することでさらなる精度向上が得られることを示す.

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top