抄録
バックプロパゲーションニューラルネットワーク(BNN: Back Propagation Neural Network)やカウンタープロパゲーションニューラルネットワーク(CNN: Counter Propagation Neural Network)を含む学習型ニューラルネットワークは、非線形データの解析に有効な手法であるが、変数が多い場合、未知化合物の活性予測が十分でない。また、モデルの解釈が難しくなり、活性化合物のデザインが難しい。したがって、モデルに寄与しない変数を効率よく除くことができれば、解釈が明瞭でかつ予測能力が高いモデルを得ることができる。膨大な変数組み合わせから有意な組み合わせを求める手法として、遺伝的アルゴリズム(GA: Genetic Algorithm)が開発され、これまで種々の構造活性データに応用されている。先の論文で、非線形関係をモデリングできるCNNと最適変数組み合わせを探索できるGAをリンクすることに成功し、フェニルアルキルアミンの幻覚作用データに適用した。本研究では、変数の数をさらに大きくしたステロイドデータに応用し、手法の有用性を調べた。まず、線形手法である部分最小2乗法(PLS: Partial Least Squares)を適用し、PLSにより十分モデリングできないことから、この構造―活性データが非線形データであることを示した。次に、全51変数でCNNモデルを構築し予測セットの活性値を予測したところ、実測値と大きくかけ離れた。次に、GAで変数選択をしたところ、変数は11変数まで減らすことができ、全変数を使った場合と比べて予測能力は飛躍的に向上した。最後に、選択された11変数の重みベクトルと活性の重みベクトルを色づけした2次元マップで比較することにより、各変数値の増減と活性との関係を視覚的に理解することができた。