A Novel Over-Sampling Method and its Application to Cancer Classification from Gene Expression Data

Xuan Tho Dang; Osamu Hirose; Duong Hung Bui; Thammakorn Saethang; Vu Anh Tran; Lan Anh T. Nguyen; Tu Kien T. Le; Mamoru Kubo; Yoichi Yamada; Kenji Satou

doi:10.1273/cbij.13.19

抄録

機械学習手法を用いた分類問題において精度が下がる重要な要因の１つに、クラス不均衡（各クラスに属するサンプル数が大きく異なること）があり、生物学データや医学データを対象とする場合にもこの問題は頻繁に起こる。この問題を緩和するアルゴリズムとしてSMOTEが知られているが、データによってはSMOTEの適用によりむしろ分類精度が下がることがある。この問題に対し我々は、分類精度の低下を招く原因の１つを特定し、これを回避する新しいアルゴリズムsafe-SMOTEを開発した。遺伝子発現データからがんの分類を行う２種類のデータセット（大腸がんと白血病のデータセット）およびUCI Machine Learning Repositoryからダウンロードした６種類のベンチマークデータセットを用いてsafe-SMOTEを評価した結果、我々の手法は、感度とG-mean（感度と特異度の幾何平均）に関して、コントロール（オーバーサンプリングなし）およびSMOTEを上回ることが分かった。例えば、大腸がんのデータセットでは、SMOTEを適用すると感度と特異度がコントロールよりも悪化する（感度は81.59%から81.36%に、特異度は89.50%から88.63%にそれぞれ悪化する）が、safe-SMOTEを適用すると、感度と特異度はそれぞれ81.82%と90.50%に改善する。その結果、コントロールのG-mean（85.45%）はSMOTEで84.91%と低下するが、safe-SMOTEでは86.04%と改善した。一方、白血病のデータセットでは、SMOTEにより感度とG-meanが改善するが、safe-SMOTEはそれを上回る改善を達成することが分かった。

著者関連情報

2013 Chem-Bio Informatics Society

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)