登場する物体の左右の位置関係を含む画像キャプション生成

守屋 響; 大和 淳司

doi:10.11517/pjsai.JSAI2024.0_4Xin227

抄録

画像キャプション生成は，画像の内容を説明する文章を自動的に生成する技術である．キャプションの生成により，画像の詳細な理解につながると期待される．しかし，一般的に生成されるキャプションには画像内のオブジェクトの位置関係が含まれていない．本研究では，画像に登場する二つのオブジェクト(人物，動物，乗り物など)について左右の位置関係を含むキャプションの生成を行う．画像キャプション生成タスクに使用される学習データセットには，基本的に位置関係が含まれていない．そこで，既存の学習データセットに位置関係を追加したキャプションを作成し，それを使用して学習を行った．学習にはVision and LanguageモデルであるGITを使用した．二つのオブジェクトが写る画像を使用し，キャプション生成テストをした．結果，生成されたキャプションにはオブジェクトの左右の位置関係が含まれていることが確認できた．今回作成したデータセットを使用することにより，キャプションに含まれる情報量を増やすことができ，これが画像のより詳細な理解につながると考える．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）