人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 4Xin2-27
会議情報

登場する物体の左右の位置関係を含む画像キャプション生成
*守屋 響大和 淳司
著者情報
会議録・要旨集 フリー

詳細
抄録

画像キャプション生成は,画像の内容を説明する文章を自動的に生成する技術である.キャプションの生成により,画像の詳細な理解につながると期待される.しかし,一般的に生成されるキャプションには画像内のオブジェクトの位置関係が含まれていない.本研究では,画像に登場する二つのオブジェクト(人物,動物,乗り物など)について左右の位置関係を含むキャプションの生成を行う.画像キャプション生成タスクに使用される学習データセットには,基本的に位置関係が含まれていない.そこで,既存の学習データセットに位置関係を追加したキャプションを作成し,それを使用して学習を行った.学習にはVision and LanguageモデルであるGITを使用した.二つのオブジェクトが写る画像を使用し,キャプション生成テストをした.結果,生成されたキャプションにはオブジェクトの左右の位置関係が含まれていることが確認できた.今回作成したデータセットを使用することにより,キャプションに含まれる情報量を増やすことができ,これが画像のより詳細な理解につながると考える.

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top