人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 1B4-GS-2-03
会議情報

宝くじ仮説の観点からの Grokking の理解
*峰岸 剛基岩澤 有祐松尾 豊
著者情報
会議録・要旨集 フリー

詳細
抄録

Grokking とは,ニューラルネットワークが初め訓練精度が100%でテスト精度が低い暗記解に達し,その後訓練を続けるとテスト精度が急上昇し100%になる汎化解に到達するという興味深い現象である。本研究では、重みノルムの減少がgrokkingの急激なテスト精度の向上に対応するという従来の考えをさらに深く分析し,最適なサブネットワークの発見が汎化を達成する上で重要な役割を果たしていることを実験を通じて示す。我々は宝くじ仮説の概念を導入し,「宝くじ」を見つけることが暗記解から汎化解への移行に重要であることを主張する。我々の研究では、(1)適切なサブネットワークを使用すると、訓練精度の向上に遅延してテスト精度が向上する現象は発生しない、(2)等しい重みノルムであっても、密なネットワークは完全な汎化を到達するためにかなり長い訓練が必要である、(3)重みの値を更新せず構造の最適化のみで、暗記解から汎化解への移行が可能であるということを示す。これらの結果は、grokkingのメカニズムを理解する上で、従来の重みノルムの減少という説明よりもサブネットワークの発見の方が重要であることを示唆している。

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top