PACベイズ理論の観点に基づく宝くじ仮説の分析

坂本 啓太朗; 佐藤 一誠

doi:10.11517/pjsai.JSAI2023.0_3Xin448

抄録

宝くじ仮説は、過剰パラメータのモデルが高い汎化能力をもつことを説明する仮説の一つとして注目を集めている。重みの初期値から学習して高い汎化能力を示すような疎なネットワークは当たりくじと呼ばれているが、ResNetなどの深いニューラルネットワークについては、大きな学習率を最初に使うとうまく見つけられないことが知られている。一般的に、大きな学習率を最初に用いると平坦な解に収束するので、当たりくじは比較的平坦でない極小値をもち、汎化能力の観点からは不利であると考察した。本論文ではこのことを確認し、PACベイズ理論が宝くじ仮説と汎化との関係を説明するのに役立つことを示す。また、平坦性が精度向上とラベルノイズに対する頑健性に有効であること、および、初期値からの距離が当たりくじの発見に大きく関与しているという実験結果を元に、spike-and-slab分布を用いたPACベイズ上界を示し分析を行う。最後に、当たりくじを見つけるための既存のアルゴリズムをPACベイズの観点から検討し、これらの手法に対する新たな知見を与える。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）