主催: 人工知能学会
会議名: 第102回言語・音声理解と対話処理研究会
回次: 102
開催地: 国立国語研究所 講堂
開催日: 2024/11/28 - 2024/11/29
p. 223-228
近年の画像生成技術の進展により,テキストから画像を生成するText-to-Image(T2I)の性能が大きく向上したものの,ユーザの期待に合った画像を得ることは容易ではない。使用するモデルに合わせてプロンプトを作成しT2Iで画像生成を試みるだけでなく,結果を見てプロンプトを修正し生成を行う作業を繰り返す必要があり,時間と認知負荷がかかる.期待通りの結果が得られない理由の一つとして,ユーザの主観的な印象テキストをT2Iが直接扱えないという課題がある.本研究では,ユーザが期待する画像に対して抱く主観的な印象をテキストでプロンプトに与えることが可能とするために,生成画像の良し悪しを主観的印象テキストの類似性に基づいて判断する手法を提案する.本稿では,生成画像の良し悪しと期待する画像が生成されるまでのトライアル回数について人実験を行った結果から,手法の有効性を示す.