Journal of Computer Chemistry, Japan
Online ISSN : 1347-3824
Print ISSN : 1347-1767
ISSN-L : 1347-1767
Letters (Selected Paper)
Development of Reaction Prediction Scheme Based on Machine Learning with Quantum Chemical Descriptors
Mikito FUJINAMIJunji SEINOHiromi NAKAI
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2016 Volume 15 Issue 3 Pages 63-65

Details
Abstract

We have developed a novel reaction prediction system, which uses machine learning with quantum chemical descriptors. Numerical assessments of the system were performed on basic polar and radical organic chemical reactions. The accuracy of the present system was close to that of a previous system having machine learning with topological information, which is termed ReactionPredictor.

1 はじめに

化学において反応物から得られる生成物を迅速かつ正確に予測することは重要な課題である.この予測をコンピュータにより自動的に行う反応予測システムが,1960年代以来多数開発されてきた [1,2].システムによる高精度な反応予測が実現すれば,コンピュータによる自動的な反応経路探索,未知化合物の発見が可能となる.さらには,目標分子の合成経路を提案するシステムとの接続により,実用的な合成経路設計システムの開発へとつながる.しかし,化学反応の複雑さをコンピュータが記述することは容易でなく,今日においても熟練の実験化学者に信頼されるシステムの開発には至っていない.

これまでの反応予測システムにおいて最も優れた予測能を示した方法の一つに,機械学習を反応予測に用いたReactionPredictorがある [3,4].ReactionPredictorは化合物の2次元構造式から得られるトポロジカルな情報を主な記述子とし,機械学習により予測を行う.しかし,トポロジカルな情報は化合物の立体的な情報や電子状態の情報を含まず,立体選択的な反応,電子状態が中心的に反応性に寄与する反応などの記述が困難であると考えられる.そこで本研究では化合物のトポロジカルな情報のみならず,3次元構造や電子状態の情報を内包する,量子化学計算により得られる記述子を用いた反応予測手法を開発した.

2 理論と実装

化学反応は原子間の結合の組み換えにより記述できる.したがって,本手法では反応予測のために,量子化学計算の結果を各原子に帰属した局所的な記述子として抽出する.そのため,自然結合軌道 (Natural bond orbital,NBO) 解析を用いて原子や,原子に帰属された自然混成軌道 (Natural hybrid orbital,NHO) [5] の情報を記述子とした.

本研究では,2電子移動反応である極性反応と1電子移動反応であるラジカル反応に関する予測手法を開発した.本手法では,NBO解析から得られた情報を用い,各反応のタイプに応じて,次のように化学反応をモデル化した.極性反応は「電子を供与するNHOから電子を受容するNHOへの2電子移動」と定義し,ラジカル反応は「ラジカルを供与する原子からラジカルを受容する原子への1電子移動」と定義してモデル化した.以下では,電子を供与,受容する部位をそれぞれdonor, acceptorとする.

Figure 1に本システムの流れを示す.反応予測は図の左に示す処理で行う.まず,入力された反応物について量子化学計算を行い,記述子を算出する.そして2段階の処理で生成物を予測する.第1に,反応に関与するNHOや原子と,それ以外を区別するスクリーニングを行う.第2に,反応に関与すると判定されたNHOおよび原子同士の組の相互作用のしやすさを予測し,ランキングする.スクリーニングとランキングを行う識別器はFigure 1の右に示すように,既知の反応データベースから得られる,反応部位やその組のデータへ機械学習を適用することで構築する.

Figure 1.

 Flowchart of the present reaction prediction scheme.

記述子には,化合物の反応性を定量的に記述するもの,化合物の構造の情報を反映するものを選択した.原子の性質を表現する記述子に,自然電荷,Fukui index,結合角ねじれの指標,周囲の立体的混み具合の指標,核磁気遮蔽定数を用いた.Natural ChargeおよびFukui indexは隣接原子,2つ隣の原子との値の差も記述子とした.軌道の性質を表現する記述子に,NBOにおけるNHOの係数,NHOにおけるs, p, d軌道の係数,NHOの電子占有数,NBOのエネルギーを用いた.量子化学計算手法にはB3LYP/6–31++G** (H-Ar), SDD (K-) を用いた.NHOの性質を表現する特徴ベクトルには原子およびNHOに関する記述子をともに用いた.また,NHOや原子の組に関する相互作用を表現する特徴ベクトルにはdonorとacceptorの記述子を列挙したものを用いた.Figure 2に反応部位,相互作用の表現に関する模式図を示す.

Figure 2.

 Representation of reactive site and interaction.

反応データベースとして『ジョーンズ有機化学』 [6]より1110の極性反応,103のラジカル反応をデータ化した.スクリーニングは,機械学習に適用可能なデータ数が存在するC, H, O, N元素を対象に行った.機械学習手法はニューラルネットワークを用いた.スクリーニングは標準的な識別タスクと同様に取り扱った.隠れ層は1層,40ノード,出力層は1ノードとした.隠れ層にはシグモイド関数を用い,誤差関数にはシグモイドクロスエントロピーを用いた.また学習アルゴリズムにはAdam [7],正則化には荷重減衰を用いた.ランキングは先と同じニューラルネットワーク構造を用いたPair-wise型の学習 [3]により行った.ハイパーパラメータの設定と予測能の評価は10分割交差検証により行った.

3 結果と考察

Table 1に本手法 (present system) による極性反応に対する反応部位スクリーニング (1st step) ,相互作用ランキング (2nd step) の予測の結果を示す.反応データベースに登録されている反応データ数,予測に用いた記述子数,そして予測精度をReactionPredictorの結果と合わせて示した.反応部位の特徴ベクトルは,18個の原子に関する記述子,6個のNHOに関する記述子の計24の記述子からなる.スクリーニングの予測精度は反応しない部位を正しくスクリーニングした割合 (True negative rate, TNR) ,反応する部位を誤って反応しないと予測した割合 (False negative rate, FNR) [8]で示す.すなわち,TNRは100に近いほど,FNRは0に近いほどスクリーニングがよく機能していることを表す.ランキングの予測精度は上位5位以内に正しい反応部位相互作用が予測されたデータの割合で示す.この結果,本手法は1st stepにおいて,ReactionPredictorと比べて少ない記述子数で,同等の精度の予測能を示した.これは,ReactionPredictorにおいて用いられている分子のトポロジカルな情報が,量子化学計算により得た記述子に内包されていることを示唆している.また,2nd stepの相互作用ランキングでは,本手法は84.6%とReactionPredictorより低い予測精度である.これは本手法で機械学習に用いた反応データがReactionPredictorより少ないことに起因すると考えられ,今後データ数の増加により精度の向上が期待される.

Table 1. Reaction prediction for polar reactions.
Reaction-PredictorPresentsystem
1stStepNumber of reaction data55511110
Number of descriptors150024
TNR %Donor84.982.0
Acceptor68.875.3
FNR %Donor1.91.0
Acceptor1.30.7
2ndStepNumber of descriptors150048
Rate of correct prediction98.584.6

Table 2にラジカル反応に対する同様の結果を示す.反応部位の特徴ベクトルは,18個の原子に関する記述子からなる.この結果,本手法は1st stepにおいて,極性反応と同様に,ReactionPredictorと比べ少ない記述子数で同等の精度の予測能を示した.特にdonorのFNRは0.0であり,誤りなくスクリーニングできた.これはトポロジカルな情報よりも,量子化学計算により得られる情報の方がラジカルの位置の特定が容易であることを示唆している.2nd stepでは,本手法はReactionPredictorと同等の精度を示した.これは学習する反応データ数が基本的なラジカル反応の予測に十分であったためと考えられる.

Table 2. Reaction prediction for radical reactions.
Reaction-PredictorPresent system
1ststepNumber of reaction data97103
Number of descriptors10018
TNR %Donor95.798.5
Acceptor71.773.3
FNR %Donor1.40.0
Acceptor3.12.9
2ndstepNumber of descriptors10036
Rate of correct prediction96.697.1

4 まとめ

本研究では量子化学計算により得られる情報を記述子とした機械学習による反応予測手法を開発した.その結果,反応部位のスクリーニングに関しては従来法と同精度の予測能を示した.また,反応部位相互作用のランキングについても極性反応において84.6%,ラジカル反応において97.1%の予測能を示した.今後は学習するデータ数,記述子の増加により予測能が向上することが期待される.また,本手法は金属元素を含む,有機金属反応やイオン反応などにも拡張可能であると考えられ,あらゆる化学種に対する反応予測手法の開発へ向けた展開が期待される.

Acknowledgment

本研究は,独立行政法人科学技術振興機構・戦略的創造研究推進事業 (CREST) 「相対論的電子論が拓く革新的機能材料設計」,文部科学省・元素戦略研究拠点「実験と理論科学のインタープレイによる触媒・電池の元素戦略研究拠点 (ESICB) 」の支援を受けて実施された.また,量子化学計算の一部は自然科学研究機構 (NINS)・計算科学研究センター (RCCS) の計算機を利用して行った.

参考文献
 
© 2016 Society of Computer Chemistry, Japan
feedback
Top