Text-to-Imageモデルの学習における最適キャプションの探索

中尾 純平; 磯沼 大; 森 純一郎; 坂田 一郎

doi:10.11517/pjsai.JSAI2023.0_1O5GS701

第37回 (2023)

セッションID: 1O5-GS-7-01

DOI https://doi.org/10.11517/pjsai.JSAI2023.0_1O5GS701

会議情報

主催: 一般社団法人人工知能学会

会議名: 2023年度人工知能学会全国大会（第37回）

回次: 37

開催地: 熊本城ホール＋オンライン

開催日: 2023/06/06 - 2023/06/09

Text-to-Imageモデルの学習における最適キャプションの探索

*中尾純平, 磯沼大, 森純一郎, 坂田一郎

著者情報

キーワード: 深層学習, マルチモーダル, 二段階最適化

会議録・要旨集フリー

詳細

抄録

キャプションから画像を生成するText-to-Imageモデルの学習では、膨大な画像・キャプションのペアで構成されるデータセットが用いられる。しかし、このようなデータセットのキャプションは人手で付与されたものであり、Text-to-Imageモデルの学習にはより適したキャプションが存在すると考えられる。そこで本研究では、Text-to-Imageモデルの学習により適したキャプションを探索する学習フレームワークを提案する。具体的には、画像から擬似キャプションを出力するモデルを新たに導入し、このモデルとText-to-Imageモデルのパラメータを二段階最適化によって交互に更新する。本稿では提案手法に向けた予備的な取り組みとして、Text-to-Imageモデルの学習における二段階最適化の有効性を評価した。

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）