日本神経回路学会誌
Online ISSN : 1883-0455
Print ISSN : 1340-766X
ISSN-L : 1340-766X
解説
幅が大きいニューラルネットに現れる学習の普遍則の今
唐木田 亮
著者情報
ジャーナル フリー

2024 年 31 巻 4 号 p. 167-176

詳細
抄録

神経回路の学習に普遍的な性質が成立するか,という問いは,現象の理解やその数理における大きな問いである.ますますモデルが大規模化していく深層学習は,実験だけでなく理論としてもこの問いの検証を進める足場を提供している.本解説ではまず,幅に関する普遍則の一端として,μPと呼ばれる特徴学習を促すパラメータスケールを紹介する.幅無限極限で学習が安定して進むためには,実は訓練パラメータ初期値や学習率といった量が幅に対して満たすべき普遍的なスケールがある.μPは,我々が普段使っている設定が必ずしも大規模化の先で適切とは限らないことを示唆する.また,2次最適化のような,より設定が込み入ったアルゴリズムにおいても,大規模モデルに望ましいスケールを定量的に与え,応用上も興味深い.最後に,もうひとつの話題として,MLP-Mixerと幅が大きいスパースMLPの等価性を紹介する.すなわち,MLP-Mixerが実効的に幅の大きなMLPを実装し,さらにスパース性を陰にバイアスとして利用することで,高い性能を発揮していることを議論する.

著者関連情報
© 2024 日本神経回路学会
前の記事 次の記事
feedback
Top