大規模視覚言語モデルおよびシーングラフを用いた画像生成プロンプト作成支援

三留 慧祐; 森田 武史

doi:10.11517/jsaisigtwo.2025.SWO-065_04

抄録

ユーザが意図する画像を生成するために，画像生成プロンプトの作成に試行錯誤を伴う場合がある．本研究では，ユーザが意図する画像を生成するためのプロンプト作成支援を目的とし，ユーザが意図する画像に類似した画像を入力として，その画像を再現するプロンプト生成手法を提案する．評価実験では，Visual Genomeデータセットから選択した画像に対して，手動で画像に対応するシーングラフを作成した．既存の評価指標であるSGScoreに，入力画像のシーングラフに含まれるオブジェクトの属性が生成画像でどの程度再現されているかを示すAttributeRecallを導入し，入力画像に対する生成画像の再現率を評価した．

著者関連情報

お気に入り & アラート

閲覧履歴

発行機関からのお知らせ

第二種研究会の全記事は認証なしでアクセス可能です．また，各記事の著作権は原則として著者に帰属します．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）