人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 4Xin1-38
会議情報

割り当て画像の多様性を考慮したVokenizationによるマスク言語モデルの改善
*平井 翔太村岡 雅康岡崎 直観
著者情報
会議録・要旨集 フリー

詳細
抄録

人間が言語機能を獲得する上で、視覚情報は重要な役割を担っている。様々な自然言語処理タスクで成功を収めている大規模言語モデルの多くは、テキストデータのみを用いて学習される。Vokenizationの研究は、自然言語処理タスクにおける大規模言語モデルの性能を向上させるために、視覚情報を大規模言語モデル学習に取り入れるという新しい方法を確立した。しかし、Vokenizationでは、文中の異なるトークンに同じ画像を割り当ててしまうため、大規模言語モデルが効果的な単語埋め込み表現を学習することができない。本研究では、大規模言語モデルの性能をさらに向上させるために、大規模言語モデル学習においてトークンに割り当てられる画像をtop-kまたはtop-pサンプリングを利用して多様化する方法を提案する。実験の結果、言語理解ベンチマークであるGLUEにおいて、本手法の有効性が示され、Vokenizationのtop-1検索を用いたベースライン手法を上回った。

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top