抄録
近年の遺伝子工学の発展により、従来では取得困難であった遺伝活動に関するデータを大量に取得することが可能となった。発現量データは、各遺伝子に対応するたんぱく質の生成量を定量的に表したものであり、ある時点における大量の遺伝子の活動レベルを観測することによって取得される。以上のような特性から、病理診断や遺伝子治療への応用が期待されている。本研究では、発現量データを用いて被験者の状態を予測、すなわち被験者のクラス分類を行う手法を取り扱う。発現量データは非常に高次元である一方、サンプル数が少なく、実験的性質からノイズが大変含まれやすい。従来研究では、GAにより遺伝子を選択することでデータの次元を削減し、SVMを用いて学習・分類を行うという手法が取られていた。この手法は高い分類精度を誇る一方、膨大な計算コストと過学習の可能性を含んでいる。本研究では、新たな指標であるConfidence Marginを導入することや事前のデータ処理による次元削減によって、上記の問題に対処している。シミュレーションにより提案手法の有効性が確認された。