主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
言語情報と紐づけられた画像データの分析手法が近年注目されているが,画像のドメインによってデータ数に大きな差異があるという課題がある.この問題に対処するために,LADSが提案された.LADSは画像言語モデルにおける画像とテキストの埋め込み空間を活用することで,データが不足しているドメインの画像データを用いることなく学習が可能なモデルである.ここで,LADSにてドメインの説明文として用いられるテキストは単純であることが多い.しかし画像言語モデルでは,テキストが画像を適切に説明できていない場合,モデルの性能が低下する可能性がある.そこで本研究では,CoOpと呼ばれる,画像の説明文を最適化する手法を援用し,LADSにおいて使用されるドメインを表現するテキストを最適化させることで精度を向上させるモデルを提案する.CoOpはプロンプトの学習により画像言語モデルの精度を向上させる手法であり,得られたプロンプトはLADSにおいて適切に異なるドメインを表現できるようになると期待できる.最後に,実際のデータに提案手法を適用し,その有効性を示す.