宝くじ仮説の観点からの Grokking の理解

峰岸 剛基; 岩澤 有祐; 松尾 豊

doi:10.11517/pjsai.JSAI2024.0_1B4GS203

抄録

Grokking とは，ニューラルネットワークが初め訓練精度が100%でテスト精度が低い暗記解に達し，その後訓練を続けるとテスト精度が急上昇し100%になる汎化解に到達するという興味深い現象である。本研究では、重みノルムの減少がgrokkingの急激なテスト精度の向上に対応するという従来の考えをさらに深く分析し，最適なサブネットワークの発見が汎化を達成する上で重要な役割を果たしていることを実験を通じて示す。我々は宝くじ仮説の概念を導入し，「宝くじ」を見つけることが暗記解から汎化解への移行に重要であることを主張する。我々の研究では、(1)適切なサブネットワークを使用すると、訓練精度の向上に遅延してテスト精度が向上する現象は発生しない、(2)等しい重みノルムであっても、密なネットワークは完全な汎化を到達するためにかなり長い訓練が必要である、(3)重みの値を更新せず構造の最適化のみで、暗記解から汎化解への移行が可能であるということを示す。これらの結果は、grokkingのメカニズムを理解する上で、従来の重みノルムの減少という説明よりもサブネットワークの発見の方が重要であることを示唆している。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）