4桁からなるEC番号には酵素名と,その酵素が触媒する化学反応も記載されている.本研究では,有機合成に用いる化学反応に対して最適な酵素候補をEC番号として予測するモデルの作成を行った.そして,Kyoto Encyclopedia of Genes and Genomes(KEGG)およびBRENDAなど文献に記載されている酵素反応データを用い,正解EC番号の予測に関するモデルの評価を行った.今回は,基質2種類,生成物2種類からなるEC 3に属する酵素反応に対し,EC番号のsubclass(2桁目)およびsub-subclass(3桁目)を予測するRandom Forests(RF)予測モデルを開発した.初めに,KEGGよりEC番号と反応式の文字データを取得し,数値に変換した.数値化の際には,各反応式で,基質が生成物に変化する際の208種類の記述子(物理・化学特性値)の変化量を計算し,208次元の反応式の特徴ベクトルを作成した.次に,SMOTEを適用し,特徴ベクトルのデータ数を962から3100にオーバーサンプリングした.さらに,予測モデル作成の前処理として記述子選択を行い,RFに対してforward selectionを適用し,23種類の記述子が選択された.また,パラメータ調整では決定木の最大深さ15,決定木数800となった.これらのデータ・パラメータ調整で作成した予測モデルの予測結果として,KEGGのテストデータに対し,F1スコア平均0.99が得られた.また,BRENDAなどの文献反応12種に対しても,現状十分な予測精度が得られた.
抄録全体を表示