画像キャプショニングは画像そのものよりも多くを語る

有働 帆乃璃; 越仲 孝文

doi:10.11517/pjsai.JSAI2023.0_4A3GS604

抄録

画像から説明文を生成する画像キャプショニング技術(image-to-text)は，深層学習が登場して以降急速に発展している．この画像キャプショニングによって生成される説明文において，元の画像がもつ情報はどの程度維持されるだろうか? この問いに答えるため，画像を一切見ずに説明文のみから画像を分類する実験を行い，標準的なCNNベースの画像分類との精度比較を行う．災害画像分類タスク，CrisisNLPにおいていくつかの画像キャプショニングモデルを評価し，説明文による分類器が時にCNNベースの分類器を超える精度を達成できることを示す．さらに，CNNベースの分類器と説明文による分類器を統合することでさらなる精度向上が得られることを示す．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）