抄録
創薬段階でのコンピュータを用いた候補化合物のデザインにおいて、合成ができるかどうかを考慮することが重要である。しかし、既存の予測手法ではうまく評価できない化合物が報告されているため、機械学習を用いてより網羅的な予測手法の構築を目指した。まず、C、N、O、S、ハロゲンが17原子までで構成された理論上化学構造的に問題ない全ての化合物を数え上げた化合物(GDB-17)から市販化合物(ZINC15)を除いた化合物群は合成が困難な可能性が高く、一方ZINC15の化合物はこの化合物群よりも合成が容易と仮定して機械学習に用いるデータセットを作成した。そして、ニューラルネットワークによって合成容易性予測モデルを構築し、文献から得られた検証セット(40化合物)を予測したところ、合成が困難な化合物群と合成が中程度〜容易な化合物群に判別できた。現在ランダムフォレストによる予測を検討中であり、ニューラルネットワークでの予測結果との比較も報告する予定である。