主催: 一般社団法人 人工知能学会
会議名: 2025年度人工知能学会全国大会(第39回)
回次: 39
開催地: 大阪国際会議場+オンライン
開催日: 2025/05/27 - 2025/05/30
画像スコアリングは実社会で広く応用されているタスクであるが、実用においてはモデルの判断を信頼するための根拠の理解が重要である。本論文では、Vision Language Models (VLMs) に自身の判断根拠を自然言語で説明させるための学習手法を提案する。画像スコアリングデータセットと指示チューニング済みVLMのみを活用し、外部データやモデルを使用せずに、VLMの生成テキストを用いた自己学習を行う。加えて、予測スコアとテキスト説明の一貫性向上を目的としたデータセット作成のための簡易な手法も提案する。2種のデータセットに対して Direct Preference Optimization による学習を行い、それらをマージすることを繰り返すことで、スコアリング精度と説明文章の一貫性の双方において改善を達成した。