2026 年 38 巻 1 号 p. 569-572
本研究では,製品画像の感性評価を自動化する試みとして,Vision-Language ModelであるCLIPの適用可能性を調査した.3つの製品カテゴリ(椅子,コップ,ペン)を対象に,アンサンブルプロンプトを用いてCLIPによる印象を算出し,人間による主観評価(リッカート尺度)との相関を分析した.実験の結果,「かわいい」,「カジュアル」といった印象語では中程度の正の相関が確認され,CLIPの有効性が示された.一方で,「重そう」,「フォーマル」といった印象語に関しては相関が低いあるいは負の相関を示した.さらに対義語分析において,CLIPは意味の対立構造(Heavy対Lightなど)を保持できていないことが明らかになった.これらの結果から,特定の印象語に対してはCLIPによる印象調査が可能であるが,視覚情報からは得られない潜在的な情報を推論するには限界があることを示唆している.