人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 4A3-GS-10-03
会議情報

判断根拠を説明する視覚言語モデルの自己改善手法
*丹治 直人山崎 俊彦
著者情報
会議録・要旨集 フリー

詳細
抄録

画像スコアリングは実社会で広く応用されているタスクであるが、実用においてはモデルの判断を信頼するための根拠の理解が重要である。本論文では、Vision Language Models (VLMs) に自身の判断根拠を自然言語で説明させるための学習手法を提案する。画像スコアリングデータセットと指示チューニング済みVLMのみを活用し、外部データやモデルを使用せずに、VLMの生成テキストを用いた自己学習を行う。加えて、予測スコアとテキスト説明の一貫性向上を目的としたデータセット作成のための簡易な手法も提案する。2種のデータセットに対して Direct Preference Optimization による学習を行い、それらをマージすることを繰り返すことで、スコアリング精度と説明文章の一貫性の双方において改善を達成した。

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top