One-Shot NASによるBERTのモデル圧縮

岡本 拓己; 横田 理央

doi:10.11517/pjsai.JSAI2024.0_2M5OS2405

抄録

近年、モデル性能の向上のためにモデルサイズを大きくした言語モデルの研究が行われているが、このようなモデルの事前学習には多くの時間を要する。この問題を解決するためにモデルの性能を維持したままモデルサイズを削減する手法としてモデル圧縮の研究が行われている。また、局所特徴量を効率的に学習できるアーキテクチャを組み込むことで言語モデルの性能を向上させる研究も行われている。そこで本研究では、性能を維持したままモデルサイズを削減することが可能なモデル構造を探索するために、局所特徴量を効率的に学習できるアーキテクチャのニューラルアーキテクチャ探索(NAS)を行った。得られたモデルをGLUEベンチマークを用いて評価した結果、BERT-baseモデルに対して平均スコアを0.5増加させつつ、モデルのパラメータ数を46.1%削減できているという結果が得られた。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）