人工知能学会第二種研究会資料
Online ISSN : 2436-5556
大規模視覚言語モデルおよびシーングラフを用いた画像生成プロンプト作成支援
三留 慧祐森田 武史
著者情報
研究報告書・技術報告書 フリー

2025 年 2025 巻 SWO-065 号 p. 04-

詳細
抄録

ユーザが意図する画像を生成するために,画像生成プロンプトの作成に試行錯誤を伴う場合がある.本研究では,ユーザが意図する画像を生成するためのプロンプト作成支援を目的とし,ユーザが意図する画像に類似した画像を入力として,その画像を再現するプロンプト生成手法を提案する.評価実験では,Visual Genomeデータセットから選択した画像に対して,手動で画像に対応するシーングラフを作成した.既存の評価指標であるSGScoreに,入力画像のシーングラフに含まれるオブジェクトの属性が生成画像でどの程度再現されているかを示すAttributeRecallを導入し,入力画像に対する生成画像の再現率を評価した.

著者関連情報
© 2025 著作者
前の記事 次の記事
feedback
Top