プロンプト学習を用いた複数ドメイン適応画像言語モデルの精度向上法

高 振宇; 山極 綾子; 後藤 正幸

doi:10.11517/pjsai.JSAI2024.0_1B3GS205

抄録

言語情報と紐づけられた画像データの分析手法が近年注目されているが，画像のドメインによってデータ数に大きな差異があるという課題がある．この問題に対処するために，LADSが提案された．LADSは画像言語モデルにおける画像とテキストの埋め込み空間を活用することで，データが不足しているドメインの画像データを用いることなく学習が可能なモデルである．ここで，LADSにてドメインの説明文として用いられるテキストは単純であることが多い．しかし画像言語モデルでは，テキストが画像を適切に説明できていない場合，モデルの性能が低下する可能性がある．そこで本研究では，CoOpと呼ばれる，画像の説明文を最適化する手法を援用し，LADSにおいて使用されるドメインを表現するテキストを最適化させることで精度を向上させるモデルを提案する．CoOpはプロンプトの学習により画像言語モデルの精度を向上させる手法であり，得られたプロンプトはLADSにおいて適切に異なるドメインを表現できるようになると期待できる．最後に，実際のデータに提案手法を適用し，その有効性を示す．

著者関連情報

お気に入り & アラート

閲覧履歴

[title in Japanese]

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）