抄録
機械学習手法を用いた分類問題において精度が下がる重要な要因の1つに、クラス不均衡(各クラスに属するサンプル数が大きく異なること)があり、生物学データや医学データを対象とする場合にもこの問題は頻繁に起こる。この問題を緩和するアルゴリズムとしてSMOTEが知られているが、データによってはSMOTEの適用によりむしろ分類精度が下がることがある。この問題に対し我々は、分類精度の低下を招く原因の1つを特定し、これを回避する新しいアルゴリズムsafe-SMOTEを開発した。遺伝子発現データからがんの分類を行う2種類のデータセット(大腸がんと白血病のデータセット)およびUCI Machine Learning Repositoryからダウンロードした6種類のベンチマークデータセットを用いてsafe-SMOTEを評価した結果、我々の手法は、感度とG-mean(感度と特異度の幾何平均)に関して、コントロール(オーバーサンプリングなし)およびSMOTEを上回ることが分かった。例えば、大腸がんのデータセットでは、SMOTEを適用すると感度と特異度がコントロールよりも悪化する(感度は81.59%から81.36%に、特異度は89.50%から88.63%にそれぞれ悪化する)が、safe-SMOTEを適用すると、感度と特異度はそれぞれ81.82%と90.50%に改善する。その結果、コントロールのG-mean(85.45%)はSMOTEで84.91%と低下するが、safe-SMOTEでは86.04%と改善した。一方、白血病のデータセットでは、SMOTEにより感度とG-meanが改善するが、safe-SMOTEはそれを上回る改善を達成することが分かった。