生物工学会誌
Online ISSN : 2435-8630
Print ISSN : 0919-3758
報文
化学反応に最適な酵素を予測するための機械学習を用いたEC番号予測モデルの開発
武藤 克弥岩﨑 源司浅野 泰久奥原 浩之
著者情報
ジャーナル フリー

2024 年 102 巻 4 号 p. 169-175

詳細
抄録

4桁からなるEC番号には酵素名と,その酵素が触媒する化学反応も記載されている.本研究では,有機合成に用いる化学反応に対して最適な酵素候補をEC番号として予測するモデルの作成を行った.そして,Kyoto Encyclopedia of Genes and Genomes(KEGG)およびBRENDAなど文献に記載されている酵素反応データを用い,正解EC番号の予測に関するモデルの評価を行った.今回は,基質2種類,生成物2種類からなるEC 3に属する酵素反応に対し,EC番号のsubclass(2桁目)およびsub-subclass(3桁目)を予測するRandom Forests(RF)予測モデルを開発した.初めに,KEGGよりEC番号と反応式の文字データを取得し,数値に変換した.数値化の際には,各反応式で,基質が生成物に変化する際の208種類の記述子(物理・化学特性値)の変化量を計算し,208次元の反応式の特徴ベクトルを作成した.次に,SMOTEを適用し,特徴ベクトルのデータ数を962から3100にオーバーサンプリングした.さらに,予測モデル作成の前処理として記述子選択を行い,RFに対してforward selectionを適用し,23種類の記述子が選択された.また,パラメータ調整では決定木の最大深さ15,決定木数800となった.これらのデータ・パラメータ調整で作成した予測モデルの予測結果として,KEGGのテストデータに対し,F1スコア平均0.99が得られた.また,BRENDAなどの文献反応12種に対しても,現状十分な予測精度が得られた.

著者関連情報
© 2024 公益社団法人日本生物工学会
前の記事 次の記事
feedback
Top