神経回路の学習に普遍的な性質が成立するか,という問いは,現象の理解やその数理における大きな問いである.ますますモデルが大規模化していく深層学習は,実験だけでなく理論としてもこの問いの検証を進める足場を提供している.本解説ではまず,幅に関する普遍則の一端として,μPと呼ばれる特徴学習を促すパラメータスケールを紹介する.幅無限極限で学習が安定して進むためには,実は訓練パラメータ初期値や学習率といった量が幅に対して満たすべき普遍的なスケールがある.μPは,我々が普段使っている設定が必ずしも大規模化の先で適切とは限らないことを示唆する.また,2次最適化のような,より設定が込み入ったアルゴリズムにおいても,大規模モデルに望ましいスケールを定量的に与え,応用上も興味深い.最後に,もうひとつの話題として,MLP-Mixerと幅が大きいスパースMLPの等価性を紹介する.すなわち,MLP-Mixerが実効的に幅の大きなMLPを実装し,さらにスパース性を陰にバイアスとして利用することで,高い性能を発揮していることを議論する.