2023 年 53 巻 1 号 p. 49-67
特徴選択・変数選択の問題は,d次元の入力からm (m < d)次元の特徴を選択する問題であり,統計学,機械学習,データマイニングといった様々な分野において主要な研究テーマとなっている.このような特徴選択の問題においては,統計分野においてはスパース推定やSure independence screening (SIS)法に基づいた統計的手法が数多く提案されており主要な研究テーマとなっている.一方で,機械学習・データマイニングにおいても特徴選択は極めて重要な研究テーマであるが,理論的な裏付けのある方法だけではなく,理論的には裏付けが少ない特徴選択方法に関しても多くの研究成果がある.しかし,機械学習分野の特徴選択手法の中には実験的には高い予測精度を示すものの,統計分野においてはまだ認知されていない方法がある.そこで本論文では機械学習・データマイニング分野で開発されている特徴選択手法の一つであるHilbert-Schmidt Independence Criterio Lasso法 (HSIC Lasso法)の基盤技術を紹介することを目的とする.まず初めに,HSIC Lasso法がどのような思想で特徴選択を行っているかを紹介した後,凸最適化に基づいた最適化手法を導出し,HSIC Lasso 法の大規模データに適応するための手法であるBlock HSIC Lasso法や選択的推論アルゴリズムについて述べる.さらに,HSIC Lasso法は非負制約付きLasso法,HSICに基づいたSIS法と密接に関係していることを示すとともに,HSIC Lasso法の統計的性質を明らかにする.