割り当て画像の多様性を考慮したVokenizationによるマスク言語モデルの改善

平井 翔太; 村岡 雅康; 岡崎 直観

doi:10.11517/pjsai.JSAI2023.0_4Xin138

抄録

人間が言語機能を獲得する上で、視覚情報は重要な役割を担っている。様々な自然言語処理タスクで成功を収めている大規模言語モデルの多くは、テキストデータのみを用いて学習される。Vokenizationの研究は、自然言語処理タスクにおける大規模言語モデルの性能を向上させるために、視覚情報を大規模言語モデル学習に取り入れるという新しい方法を確立した。しかし、Vokenizationでは、文中の異なるトークンに同じ画像を割り当ててしまうため、大規模言語モデルが効果的な単語埋め込み表現を学習することができない。本研究では、大規模言語モデルの性能をさらに向上させるために、大規模言語モデル学習においてトークンに割り当てられる画像をtop-kまたはtop-pサンプリングを利用して多様化する方法を提案する。実験の結果、言語理解ベンチマークであるGLUEにおいて、本手法の有効性が示され、Vokenizationのtop-1検索を用いたベースライン手法を上回った。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）