遺伝子情報処理における遺伝的アルゴリズム (GA) の応用例の1つとして, 記述長最小 (MDL) 基準を用いたGAによるモチーフ抽出について述べる. モチーフとは, 分子生物学用語で, 核酸配列やアミノ酸配列のような遺伝子情報において進化的に保存されているパターンを意味する. このようなモチーフの抽出は機械学習の観点からは分類規則の帰納学習問題として定式化できるが, 分類規則に合わない例外が多い, 過剰適合が起きやすい, 探索空間が組合せ的に増大するなどの問題点をもつ. 本稿では, これらの問題点に対する確率的アプローチの有効性について述べる. 確率的アプローチでは例外を許容するために, モチーフを確率的な分類規則として表現している. そして, 過剰適合を避けるために評価基準として規則の複雑さと適合性のバランスをとる記述長最小 (MDL) 基準を採用している. また, 効率的な探索を実現するために探索アルゴリズムとして, GAを採用している. 本稿では, さらにGAとMDL基準を組み合わせることによりMDL基準を用いなかった場合に比べ収束速度が大幅に向上することを示す.
抄録全体を表示