判断根拠を説明する視覚言語モデルの自己改善手法

丹治 直人; 山崎 俊彦

doi:10.11517/pjsai.JSAI2025.0_4A3GS1003

第39回 (2025)

セッションID: 4A3-GS-10-03

DOI https://doi.org/10.11517/pjsai.JSAI2025.0_4A3GS1003

会議情報

主催: 一般社団法人人工知能学会

会議名: 2025年度人工知能学会全国大会（第39回）

回次: 39

開催地: 大阪国際会議場＋オンライン

開催日: 2025/05/27 - 2025/05/30

判断根拠を説明する視覚言語モデルの自己改善手法

*丹治直人, 山崎俊彦

著者情報

キーワード: 深層学習, 視覚言語モデル, 説明可能AI, 自己改善

会議録・要旨集フリー

詳細

抄録

画像スコアリングは実社会で広く応用されているタスクであるが、実用においてはモデルの判断を信頼するための根拠の理解が重要である。本論文では、Vision Language Models (VLMs) に自身の判断根拠を自然言語で説明させるための学習手法を提案する。画像スコアリングデータセットと指示チューニング済みVLMのみを活用し、外部データやモデルを使用せずに、VLMの生成テキストを用いた自己学習を行う。加えて、予測スコアとテキスト説明の一貫性向上を目的としたデータセット作成のための簡易な手法も提案する。2種のデータセットに対して Direct Preference Optimization による学習を行い、それらをマージすることを繰り返すことで、スコアリング精度と説明文章の一貫性の双方において改善を達成した。

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）