本稿では深層学習がなぜうまくいくのかという疑問に答えるべくその統計理論を紹介する.特にその関数近似能力および推定能力に関して議論し,深層学習には対象の関数に合わせた適応的推定が可能であることを紹介する.そのため,深層学習の万能近似能力を紹介した後,Barronクラスや非等方的Besov空間における推定理論とミニマックス最適性を議論し,線形推定量と比べて次元の呪いを回避できることや関数の滑らかさの非一様性への適応性といった優れた性質を持っていることを紹介する.最後に,パラメータがサンプルサイズよりも多いニューラルネットワークがいかに汎化するかをカーネル法の観点から解析した汎化誤差理論を紹介する.