2023 年 4 巻 3 号 p. 766-771
英文を入力して画像を生成するStable Diffusionが注目されている.また,生成画像において,英文内の各英単語に関連する箇所を示す解釈技術も登場している.本稿では,Stable Diffusionと解釈技術により再学習で用いる物体検出モデルを構築する手法を提案する.本手法は,Stable Diffusionによって所望する検出対象物と類似するドメインの画像を多量に生成し,解釈技術により生成画像内のアノテーションを自動で行う.そして,類似するドメインの画像で学習した物体検出モデルをファインチューニングすることで,少量の画像で精度向上を図る.評価の結果,本手法で構築した物体検出モデルでファインチューニングしたモデルは,COCO datasetの学習済みモデルをファインチューニングした場合より,高い検出精度となった.