Abstract
近年の薬剤開発コストの増大に対し、計算機を用いて化合物群から薬剤候補化合物を選抜しようとするバーチャルスクリーニングは、化合物選抜のための化合物の合成やin vitro実験を必要としないことからコストの大幅削減につながることが期待されている。特に、タンパク質立体構造情報を用いたバーチャルスクリーニングでは、タンパク質と化合物との物理化学的な相互作用を評価し、化合物を選抜する。このため、既知の活性化合物の情報を必要とせず、新規構造を持つ薬剤候補化合物の選抜が可能である。本稿では、薬剤開発におけるタンパク質立体構造を用いたバーチャルスクリーニング手法について一連の流れを示し、近年の動向および研究事例について紹介する。
はじめに
創薬(薬剤開発)は極めてコストの高いプロセスである。1つの薬剤が承認・上市されるまでに、平均にして約18-25億米ドルと13年以上の開発期間が費やされている[1, 2]。このような状況になっている原因の1つとして、創薬途中で開発が中止される薬剤候補化合物の多さが挙げられる。例えば、第I相から第III相までの臨床試験の間に85%以上の薬剤候補化合物の開発が中止になる[1]。このような中で、化合物の合成を行う前に、薬効・副作用の両面から化合物を選抜することが期待されてきた。
創薬におけるバーチャルスクリーニング(virtual screening; VS)は、大量の化合物から、計算機を用いて、薬剤候補化合物を選抜する方法のことである[3, 4]。薬剤として利用することが可能な化合物の総数は1030から1060まで、いずれも天文学的な数が見積もられており[5, 6]、VSによる化合物の選抜は今後も常に必要とされる。薬効を示さなければ当然薬剤として利用することはできないため、VSでは主に薬効に着目し、薬剤標的タンパク質に対する活性有無を評価することが多い。このようなVSは、既知活性化合物に基づく手法(ligand-based virtual screening; LBVS)[7]、およびタンパク質立体構造に基づく手法(structure-based virtual screening; SBVS)[8]に大きく分けることができる[3]。
LBVSは主に化合物の類似度評価や、機械学習を用いた方法であり、既知の実験結果を用いて回帰予測モデルや分類予測モデルを構築し、これを用いて化合物の選抜を行う。比較的高精度に薬剤候補化合物を選別することができる一方で、標的タンパク質に対する実験が実施された数少ない化合物を元に学習を行うため、予測される活性化合物の化学構造上の新規性が乏しいことや、立体構造的な知見が得られないために選抜された薬剤候補化合物からどのように化学構造を最適化するかの指針が立てにくい、などが大きな問題として指摘されている[9]。
一方、SBVSはタンパク質の立体構造情報を元に、ファンデルワールス力やクーロン力、水素結合などの物理化学的な相互作用に基づいてタンパク質と化合物との結合親和性を評価、薬剤候補化合物を選別する。この手法は標的タンパク質に関する既知の実験情報を用いないことから、予測精度こそLBVSに劣るものの、新規性の高い薬剤候補化合物を発見できる。またタンパク質と化合物との推定結合様式が得られ、その後の化合物の構造最適化の指針を与えることができる。以上2点の長所から、LBVSと同様大きな注目を集めている[9, 10]。SBVSでは多段階の化合物選抜を行うことが一般的であり、その流れの例を図1に示す[8, 11]。
図1:SBVSにおける流れの例
本稿では、SBVSに利用者の視点から焦点を当て、どのような計算手法があるのか、どのような手順でSBVSが行われていくのかを概説する。特にSBVSで無くてはならない手法であるタンパク質-化合物ドッキング(以下ドッキング計算)については詳述し、近年のSBVSと機械学習との融合についても触れる。最後に事例を紹介することで、実際にどのようにSBVSが実施されているのかを確認していきたい。
P1:創薬対象となる標的タンパク質の調査・選択
まず、創薬対象となる病気に関与するタンパク質から、標的とするタンパク質の選択を行う。このステップについてはHughesら[12]やGashawら[13]の総説が詳しいが、単に既知の発症機序を元に標的タンパク質を選択するだけではなく、オミクス解析を用いて標的タンパク質を選択する[14, 15]など、バイオインフォマティクス的な方法を用いたタンパク質の選択が行われる。
ただし、上記で述べた方法で選択された標的タンパク質候補から自由に標的タンパク質が選択できるというわけではない。例えば、ヒト体内において重要な役割を果たすタンパク質を阻害してしまうと副作用につながるため、極力避けなければならない。完全に一致していなくとも、標的タンパク質と同じ機能を有する必須なタンパク質がある場合にはわずかな構造の違いの中で選択性を示す必要があり[16]、創薬の難易度が高まる。あるいは非臨床試験の際、遺伝子ノックアウトラット・マウスで実験が可能であることも重要である[13]。このような条件に加え、SBVSを行う上ではタンパク質の立体構造が既知、あるいはホモロジーモデリング等によって信頼できる立体構造が推定できることも必要であるし、次節で述べるような薬剤結合部位の難易度も考慮して、最終的な標的タンパク質は決定されるべきである。
P2:タンパク質立体構造の準備
SBVSにおいては、側鎖の変化ですらドッキング計算等の結果に大きな影響を及ぼすため、タンパク質立体構造の準備は注意深く行う必要がある。Protein Data Bank(PDB)[17, 18]には様々なタンパク質立体構造が登録されているが、特に化合物との複合体構造が既知であれば、化合物が結合しやすい局所構造になっており、高精度な化合物選抜が期待できる。ただし、要求される解像度は厳しく、ドッキング計算では少なくとも2.2Å~2.5Åの解像度が必要と言われている[19, 20]。一方、タンパク質立体構造が未知な場合には、その立体構造を予測する必要がある。SBVSにおいては先述した解像度の都合からab initio法が用いられることはほぼ無く、もっぱら構造既知である相同タンパク質を用いて立体構造を予測するホモロジーモデリングが用いられる。ホモロジーモデリングのツールとしてはMODELLER[21]やSWISS-MODEL[22]などが挙げられる。ただし、タンパク質立体構造予測は2021年7月のAlphaFold2[23, 24]の公開により状況が大きく変動していく可能性があることを付しておく。
また、タンパク質の一部残基は環境に伴ってイオン化状態が変化している。クーロン力による相互作用はファンデルワールス力や水素結合に比べると強いため、イオン化状態を考慮することは極めて重要となるが、ドッキング計算や分子動力学(MD)シミュレーション中にイオン化状態の変化を起こすことはできない。したがって、あらかじめイオン化状態を生成する必要があり、このために最も広く利用されているのがPROPKA[25]である。多くの場合、ヒト体内はほぼ中性環境であるため、pH7.0のイオン化状態を発生させてドッキング計算に用いることが多いが、例えば胃に存在するタンパク質であれば酸性条件下のイオン化状態を生成しなければならないことに注意したい。
P3:薬剤結合部位予測・選択
薬剤の結合が期待できるタンパク質表面部位(druggable site)を特定することは、より詳細な結合構造の推定に必須である。Druggable siteの条件として、化合物結合時に「ポケット」と呼ばれる凹領域を持つ、その凹領域が適度なサイズで十分深い、疎水的な表面を持つ、などが挙げられている。この特徴のうち、タンパク質表面形状に基づいて薬剤結合部位を予測するPOVME[26, 27]、タンパク質表面の性質なども考慮して推定を行うFpocket[28, 29]やSiteMap[30]、実際に小さなプローブ分子を配置し、エネルギー的に安定な空間を見つけるFTMap[31, 32]などの手法が広く用いられている。酵素など明らかな活性部位が存在する場合はその活性部位をめがけて薬剤設計を行うことが多い一方、化合物が結合して初めて明確な凹領域が現れる場合には特に結合部位推定手法が重要となる。例えば、タンパク質が構造変化しながら化合物と結合する場合(誘導適合、induced fit)や、タンパク質間相互作用の阻害剤設計の場合などがこのようなケースに該当する。図2は誘導適合を起こすタンパク質に対して結合部位予測を行った例である。図2Aに示した阻害剤結合部位は図2Bの単体構造では明確な凹構造を示していないが、そのような場合でも、結合部位予測によって、図2Cのように真の阻害剤結合部位が薬剤結合部位候補の1つとして予測されることが期待される。
Druggable siteかどうかを検討するもう1つの軸として、その結合部位を構成するアミノ酸残基の保存度も重視される。ラットやマウスなどの実験動物とヒトで標的タンパク質の配列が大きく異なると、薬効に差が発生し、臨床試験時における薬剤開発中止の原因となる。また、抗ウイルス薬等では、タンパク質の機能に必須で保存度の高い部位に対する薬剤を設計することで薬剤耐性の獲得を抑えることが可能である[34]。
C1:化合物DBの選択・生成
化合物データベースはZINC[35]やPubChem[36]といった公開データベースやEnamine社のような専門商社が提供するデータベース、東京大学 創薬機構のような大学が提供するデータベースなどが存在するため、化合物数に伴う計算コスト、化合物の入手性、費用等を考慮して選択することが重要である。しかしながら、これらのデータベースに登録されている化合物数は高々109程度であり、前述の推定される化合物数(1030~1060)に比べると極めて少ない。このことから、容易に合成ができると想定される化合物を計算機上で合成したバーチャルライブラリー[6, 37]も提案されており、大規模な計算環境が整っている場合にはより大規模なバーチャルスクリーニングを行うことも可能である。
C2:化合物の事前フィルタリング
前述のような、109件の化合物をタンパク質立体構造に基づいて評価することは通常計算量的困難を伴う。また、タンパク質の機能を促進・阻害する薬剤候補化合物を推定できたとしても、化合物の溶解度や副作用等の問題で薬剤としては不適である化合物も多く存在する。以上のことから、様々な視点から化合物のフィルタリングが行われることが多い。
経口薬を設計する上で最も広く用いられるのがリピンスキーのrule of five(Lipinski's rule of five)である[38]。これは、Lipinskiらが、経口薬として承認された薬剤についてその化学的性質をまとめてルールとして示したものであり、分子量が500以下、水素結合受容基が10個以下、水素結合供与基が5個以下、水-オクタノール分配係数logPが5以下という4つの条件を挙げている(全てが5の倍数になっていることからrule of fiveと呼ばれる)。この「経口薬らしさ」を実数的に評価する手法としてQED(quantitative estimate of druglikeness)も広く利用されている[39]。また、off-target効果(他のタンパク質に結合し、阻害あるいは活性化させる効果)を頻繁に引き起こす化合物部分構造の特徴をまとめたPAINS[40]、製薬会社Eli lilly社が公開しているリスク指標[41]などの副作用・毒性に関する指標も提案されている。
上記に加えて、ドッキング計算の計算量削減のために、LBVS的な手法を用いて化合物を選別することも多く行われている。ただしこれは「結合化合物の発見率は高いが化合物の新規性が低い」結果に近づいてしまうためやりすぎは禁物である。計算資源やドッキングツールのライセンスを十分に所持しているなら、ドッキング計算自体は多くの化合物について実施し、ドッキング結果の解析の際に既知化合物との比較検討を行うのが良いだろう。
C3:化合物のイオン化状態等の生成
タンパク質と同様、化合物も環境に伴ってイオン化状態が変化している。化合物の場合はイオン化状態に幅を持たせることが多く、pH 7.0±2.0程度のイオン化状態を発生させてドッキング計算に用いることが多い(もちろん標的タンパク質が存在する環境に応じてpHは変更させる必要がある)。化合物のイオン化状態を発生させるツールとして、Schrodinger社のEpik[42]やChemAxon社のJChemのProtonation Plugin、オープンソースウェアDimorphite-DL[43]などが存在する。ただし、筆者の経験上Dimorphite-DLよりもEpikの方が高精度にイオン化状態を推定できることを付しておく。
また、化合物によっては互変異性体(tautomer)が存在したり、あるいは光学異性体が分離されずに1つの化合物エントリにまとめられているものがある。そのような異性体はタンパク質との相互作用様式の変化や、化合物の立体構造変化に伴うタンパク質への衝突の発生など、しばしば大きな影響を与える。したがって、これらについてもそれぞれの異性体を生成する必要がある[44]。これについてもChemAxon社のJChem Isomers Pluginや、Schrodinger社のLigPrep、オープンソースソフトウェアGypsum-DL[45]などが存在している。
PC1:タンパク質-化合物ドッキング計算
タンパク質、化合物それぞれについて準備が整ったら、いよいよタンパク質-化合物ドッキング計算(protein-ligand docking simulation)を行う。ドッキング計算は、タンパク質の薬剤結合部位に対して、ある化合物がどの程度の結合親和力で、どのような結合様式をとるか、を予測する手法である。特に用いられることの多いドッキングツールについて表1にまとめた。
表1:タンパク質-化合物ドッキング計算ツール
バーチャルスクリーニングの指標のうち、ROC曲線のAUCとエンリッチメントファクター(enrichment factor: EF)が論文に示されているものを併せて表示した。
ドッキング計算ツール |
性能評価(DUD-E[54]) |
ツール名 |
探索アルゴリズム |
フリーウェア |
引用 |
バージョン |
ROC-AUC |
EF1% |
AutoDock |
遺伝的アルゴリズム |
✓ |
[46] |
4.2 |
0.72[48] 0.66[55] |
9.7[48] 8.9[55] |
AutoDock Vina |
反復的局所最適化 |
✓ |
[47, 48] |
1.2.0 |
0.70[48] |
9.7[48] |
1.1.2 |
0.70[56] 0.68[55] |
7.7[56] 7.6[55] |
Glide |
階層的網羅探索 |
|
[49, 50] |
80012 SP mode |
0.83[57]* |
20.4[58] |
80012 HTVS mode |
--- |
16.3[58] |
Surflex |
化合物部分構造配置 |
|
[51] |
4.5 |
0.82[57]* |
--- |
GOLD |
遺伝的アルゴリズム |
|
[52] |
--- |
--- |
--- |
rDock |
遺伝的アルゴリズム |
✓ |
[53] |
--- |
--- |
--- |
表1には、予測精度評価結果も併せてまとめてある。DUD-EとはSBVSのベンチマークデータセットであり、エンリッチメントファクター(enrichment factor; EF)は選抜前に比べて選抜後に、活性化合物の比率がどの程度増加したか、を比で示す値である。例えば、上位x%を選抜したときのエンリッチメントファクターEFx%は以下のように計算される。
EF
x
%
=
Pos
x
%
/
All
x
%
Pos
100
%
/
All
100
%
|
分母はベンチマークデータセットに含まれる活性化合物の比率であり、分子は選抜を行った後の活性化合物の比率である。ドッキング計算による選抜では100分の1以下にまで急激に評価対象を絞ることが多いため、EF1%などの小さな値に設定することが多い。表1の性能評価結果を見ると、Glide[49, 50], Surflex[51]のような商用ソフトウェアの予測精度が高く、それに比べるとオープンソースソフトウェアであるAutoDock[46]、 AutoDock Vina[47, 48]は予測精度が劣る傾向にある。他のデータセットあるいは他の指標を用いた評価は単純のために表には示していないが、商用ソフトウェアである、GOLD[52]はGlideと同等の性能であり[59]、オープンソースソフトウェアである、rDockはGlideに劣る[53]など、同等の傾向が見受けられる。ただし、rDockはオープンソースソフトウェアの中では比較的精度が良く、Surflexとほぼ同等の予測精度と評価されることもある[60]。
ドッキング計算は1 CPU core利用時に1化合物あたり10秒程度(Glide SPモードの場合)かかり、1,000万化合物を評価するには単純計算で3年以上を要してしまう。Glideなど一部の商用ソフトウェアは使用可能な計算機資源についてライセンス上の制約があるため、より効率的・簡易的に化合物を事前スクリーニングする手法も複数提案されており[61, 62]、筆者もSpresso[63]という事前スクリーニング手法を提案している。また、Quantum.Ligand.Dock[64]やBUDE[65]など、GPUを用いたドッキングソフトウェアの開発もしばしば行われている。これらの手法は極めてマイナーであるが、2021年にはAutoDockの開発元である米Scripps研究所がAutoDock のGPU実装[66]を行い、1 CPU core比で250倍の高速化(NVIDIA Titan V利用時)を実現した。AutoDockは元々計算コストが大きく、これでも2秒~40秒の計算時間がかかり、予測精度の面で商用ソフトウェアの方が依然高性能である。しかしながら、オープンソースソフトウェアが高速化されることで、限られた予算の中でも大規模SBVSが行えるようになり、創薬の門戸が広がったと言えるだろう。
ドッキング計算は化合物の構造変化を考慮する一方、タンパク質の構造変化は考慮しないことが一般的である。実際には化合物の結合によってタンパク質の構造は大なり小なり変化する(誘導適合、induced fit)ため、タンパク質の構造変化を考慮することは予測精度を高める上で重要である。しかし、ドッキング計算中にタンパク質側鎖の構造変化を考慮する手法など存在はする[67]ものの、前述の計算量の問題から一般的にはなっていない。ドッキング計算とは独立に、MD法によってタンパク質の構造を複数発生させ、それぞれについてドッキング計算を行うアンサンブルドッキングがしばしば行われる[8, 68, 69]が、これについてもドッキング計算に用いるタンパク質の構造数だけ計算量が倍増していくため、適用例はごく少数に限られている。
目視による選抜もしばしば実施される[70]。特に側鎖の構造変化や水素結合の角度に関する評価、分子内相互作用と分子間相互作用の検討、既知実験情報からわかる重要な相互作用の検討など、ドッキング計算で表現しきれない部分をカバーすることができる。ただし、当然既知実験情報を参考にし、選抜者の過去の経験、多量の既存研究調査に基づくため、薬剤候補化合物の新規性が失われやすい。多様性を意識した化合物の選択と、結合すると思われる化合物の選択の両方を考え、それぞれから選択する化合物件数を増減させるなどの判断も必要である。
PC2: 分子動力学(MD)法による化合物の選抜
溶質(タンパク質等)と溶媒(水等)が存在する環境について、各原子の座標の時間変化をシミュレーションする分子動力学(molecular dynamics; MD)法は様々な解析に活用されている。MDシミュレーションを行うプログラムはAMBER[71]、GROMACS[72]、NAMD[73]、CHARMM[74]、Desmond[75]などが有名である。なお、MDシミュレーションではGPU等アクセラレータの利用による高速化率が極めて高く(速度向上比の例は[71]や[72]を参照されたい)、比較的安価な一般向けGPUを用いても十分に恩恵を受けられるため、実施の際にはGPUの利用を強く推奨する。
SBVSの視点から見ると、MDシミュレーションによってタンパク質の構造変化や溶媒和、エントロピー的な効果などを陽に考慮しながらタンパク質と化合物との結合力を評価することができ、より高精度な化合物選抜が可能である[76]。もちろん、ドッキング計算とは比べ物にならないほど計算量が大きいため、これを行わずにin vitro実験に進む事例の方が多いことは明記しておく。
SBVSのためのMD計算では、ドッキング計算による予測結合構造を始点にシミュレーションを実施する。例えば、短時間のシミュレーションを複数回行い、その予測結合構造がどのくらい安定かを評価する方法[77]や、MM-GBSA法やMM-PBSA法[78, 79]、MP-CAFEE法[80]などを用いた結合エネルギーの高精度な推定手法等が提案されている。後半で述べた結合エネルギーの高精度な推定は、始点となる予測結合構造が不正確であると予測結果に大きな誤差が生じるため、細心の注意を払う必要がある。
SBVSと機械学習
ここまで、SBVSの一連の流れを示した。実際にはSBVSとLBVSを併用し、両者で共通して選抜された化合物をin vitro実験に回したり、C2のステップに既知活性化合物情報を用いた機械学習などのLBVS手法を導入することで、ある程度薬剤候補化合物を絞りこんでからSBVSの一連の流れを行うことも多い[81, 82]。
一方で、タンパク質立体構造に対する機械学習手法や、ドッキング計算によって得られた予測結合構造に対する機械学習手法など、SBVSと機械学習が融合した手法も多く存在する。これらの方法は、単に特定のタンパク質に対する既知化合物の知見を用いるのではなく、様々なタンパク質の構造、あるいは様々なタンパク質と化合物との結合構造を用いるため、最初に述べたLBVSの「予測される活性化合物の化学構造上の新規性が乏しい」という弱点はほとんど表面化しない。
まず、P2: 薬剤結合部位予測では、近年3次元畳み込みニューラルネットワーク(3D-CNN)による結合部位予測が、DeepSite[83]、Kalasanty[84]、DeepSurf[85]、あるいは化合物の結合部位ではなくペプチドの結合部位を予測する手法[86]等、盛んに提案されている。一方、PC1: タンパク質-化合物ドッキング計算では、ドッキング計算において複数の予測結合構造を出力させ、その結合構造の相互作用様式、あるいは相互作用エネルギーを特徴量とした予測を行い、順位付けを行うリランキング手法[87, 88, 89]が提案されており、ドッキング計算で得られるスコアによるランク付けに比べて精度が向上する。これらについてもRagozaらの手法[90]やKDEEP[91]、Imrieらの手法[92]など、結合構造をそのまま入力とする3次元畳み込みニューラルネットワークが提案されつつあるが、興味深いことに相互作用様式を特徴量とする手法と深層学習手法で大きな性能差は見られない。このことは、深層学習を行う上でのデータ数の不足[92]や、相互作用に関するドメイン知識の十分な成熟を示唆している[93]。
SBVSの実応用例
この節では、SBVSを利用し、実際に活性を持つ化合物を発見した例を2例ではあるが紹介する。
まず、極めて大規模なSBVSを行った例として、LyuらによるAmpC beta-lactamase(AmpC)および D4 dopamine receptorに対するSBVS[10]が挙げられる。彼らは既知の阻害剤とは大きく異なる構造を持つ阻害化合物を発見することを目的として、約1億もの化合物を2つのタンパク質に対してドッキングした。D4 dopamine receptorに対するドッキング計算では、1500 CPU coreを使って1日以上の時間を要したことが記載されている。上位1,000化合物について目視による評価を行い、その結果としてもっともらしいと判断された124化合物とドッキングスコア上位444化合物を選択し合成、in vitroアッセイを行ったところ、20%以上の化合物に活性が認められた(ヒット化合物と言う)。また、目視によって選択されたヒット化合物は、ドッキングスコアから選択されたヒット化合物に比べてより強い阻害活性を示したことも述べている。この研究は化合物選抜のプロトコルについては極めて一般的であり、それを極めて大規模に行った、将来のSBVSの教科書的論文であるといえる。
COVID-19に対するSBVSの応用例は、感染が広がり始めた2020年1月末にメインプロテアーゼ(Mpro)と阻害剤のタンパク質複合体構造が得られて[94]以来、大量の報告がある。多くの研究はドッキング計算を実施し推定結合構造を示すだけで終わっている[95, 96]が、in vitro実験まで行い、活性化合物を得た研究も存在する。Guptaらは、約2,100件の承認済み薬剤を対象としてSBVSを実施し、IC50<10µMの活性化合物を同定した[97]。彼らは、Glideを用いたドッキング計算で4化合物まで絞りこんだ。それぞれの化合物に対してMM-PBSA法による結合エネルギー推定を行ったところ、-8.73 kcal/mol 以下の良い結合エネルギーを示したため、全てについてin vitroアッセイを行い、IC50<10µMの良好なヒット化合物を得ている。このような、承認済み薬剤を対象とした化合物スクリーニングはリポジショニング(drug repositioning)と呼ばれる。既にヒトに対する安全性が確認されているため、比較的高速に臨床試験が進められる。
今後の展望
2021年7月にAlphaFold 2の実装が公開され、高精度なタンパク質の立体構造予測結果を利用できるようになった[23, 24]。信頼できるタンパク質立体構造があることはSBVSの前提であり、これまで立体構造が判明しているタンパク質は限られていたため、おのずとSBVS対象も限られていた。これに対し、AlphaFoldの登場により、構造未知であるタンパク質を対象としたSBVSが行える可能性が出てきたのである。このインパクトは非常に大きく、今後創薬にもブレイクスルーが発生するかもしれない。創薬におけるタンパク質構造は側鎖1つの向きすらも重要となるため、MDシミュレーションによる化合物の結合しやすいタンパク質構造の推定などに注目が集まる可能性がある。筆者らはこれの1つの方法として共溶媒分子動力学法に取り組んでいる[98]。一方で、AlphaFoldをさらに発展させ、化合物を追加の入力として与え、タンパク質と化合物の結合構造をタンパク質の立体構造もろとも推定する手法が今後出てこないとは限らない。SBVSと機械学習の融合の1つの到達点として、今後の研究が非常に楽しみである。
もちろん、夢を見るだけでは目の前のヒット化合物の探索は進まない。事実、SBVSはここまで述べてきた手法を組み合わせたとしても失敗することも多い。少しでも成功率を高めるためにはここまで述べてきた様々な方策を利用するのはもちろんのこと、目的に応じてLBVS手法をも組み合わせることが重要である。それと同時に、SBVS、LBVSの手法に関わる研究者が、より一層の努力を重ね、予測精度、候補化合物の新規性、速度、いずれの観点でも高性能な手法を提案し続けていく必要がある。
本稿では、タンパク質立体構造にもとづく化合物選抜であるSBVSの流れと、それぞれのステップにおける各手法を概説した。この文章で挙げたツールには多くのフリーウェア、オープンソースソフトウェアが含まれるため、ぜひ実際に試してみてほしい。本稿が国内のアカデミアにおける創薬研究の発展にわずかでも寄与すれば本望である。
References
- [1] Paul, S. M. et al. (2010). How to improve R&D productivity: the pharmaceutical industry's grand challenge. Nature Reviews Drug Discovery, 9, 203-214. doi: 10.1038/nrd3078
- [2] DiMasi, J. et al. (2016). Innovation in the pharmaceutical industry: New estimates of R& D costs. Journal of Health Economics, 47, 20-33. doi: 10.1016/j.jhealeco.2016.01.012
- [3] Ripphausen, P. et al. (2010). Quo Vadis, Virtual Screening? A Comprehensive Survey of Prospective Applications. Journal of Medicinal Chemistry, 53, 8461-8467. doi: 10.1021/jm101020z
- [4] Śledź, P. et al. (2018). Protein structure-based drug design: from docking to molecular dynamics. Current Opinion in Structural Biology, 48, 93-102. doi: 10.1016/j.sbi.2017.10.010
- [5] Bohacek, R. et al. (1996). The art and practice of structure-based drug design: A molecular modeling perspective. Medicinal Research Reviews, 16, 3-50. doi: 10.1002/(SICI)1098-1128(199601)16:1<3::AID-MED1>3.0.CO;2-6
- [6] Walters, W. P. (2019). Virtual Chemical Libraries. Journal of Medicinal Chemistry, 62, 1116-1124. doi: 10.1021/acs.jmedchem.8b01048
- [7] Lavecchia, A. (2015). Machine-learning approaches in drug discovery: methods and applications. Drug Discovery Today, 20, 318-331. doi: 10.1016/j.drudis.2014.10.012
- [8] Lionta, E. et al. (2014). Structure-Based Virtual Screening for Drug Discovery: Principles, Applications and Recent Advances. Current Topics in Medicinal Chemistry, 14, 1923-1938. doi: 10.2174/1568026614666140929124445
- [9] Wang, Z. et al. (2020). Combined strategies in structure-based virtual screening. Physical Chemistry Chemical Physics, 22, 3149-3159. doi: 10.1039/C9CP06303J
- [10] Lyu, J. et al. (2019). Ultra-large library docking for discovering new chemotypes. Nature, 566, 224-229. doi: 10.1038/s41586-019-0917-9
- [11] Anderson, A. C. (2003). The Process of Structure-Based Drug Design. Chemistry & Biology, 10, 787-797. doi: 10.1016/j.chembiol.2003.09.002
- [12] Hughes, J. P. et al. (2011). Principles of early drug discovery. British Journal of Pharmacology, 162, 1239-1249. doi: 10.1111/j.1476-5381.2010.01127.x
- [13] Gashaw, I. et al. (2012). What makes a good drug target? Drug Discovery Today, 17, S24-S30. doi: 10.1016/j.drudis.2011.12.008
- [14] Fotis, C. et al. (2018). Network-based technologies for early drug discovery. Drug Discovery Today, 23, 626-635. doi: 10.1016/j.drudis.2017.12.001
- [15] Chen, B. et al. (2020). Harnessing big ‘omics’ data and AI for drug discovery in hepatocellular carcinoma. Nature Reviews Gastroenterology & Hepatology, 17, 238-251. doi: 10.1038/s41575-019-0240-9
- [16] Hashimoto, K. et al. (2013). Design and synthesis of potent inhibitor of apoptosis (IAP) proteins antagonists bearing an octahydropyrrolo[1,2-a]pyrazine scaffold as a novel proline mimetic. Journal of Medicinal Chemistry, 56, 1228-1246. doi: 10.1021/acs.jmedchem.8b01048
- [17] Berman, H. M. et al. (2000). The Protein Data Bank. Nucleic Acids Research, 28, 235-242. doi: 10.1093/nar/28.1.235
- [18] Rose, P. W. et al. (2015). The RCSB Protein Data Bank: views of structural biology for basic and applied research and education. Nucleic Acids Research, 43, D345-D356. doi: 10.1093/nar/gku1214
- [19] Sousa, S. F. et al. (2006). Protein-ligand docking: current status and future challenges. Proteins: Structure, Function, and Bioinformatics, 65, 15-26. doi: 10.1002/prot.21082
- [20] Wang, R. et al. (2005). The PDBbind database: Methodologies and updates. Journal of Medicinal Chemistry, 48, 4111-4119. doi: 10.1021/jm048957q
- [21] Fiser, A. and Šali, A. (2003). MODELLER: Generation and Refinement of Homology-Based Protein Structure Models. Methods in Enzymology, 374, 461-491. doi: 10.1016/S0076-6879(03)74020-8
- [22] Kopp, J. and Schwede, T. (2004). The SWISS-MODEL Repository of annotated three-dimensional protein structure homology models. Nucleic Acids Research, 32, D230-D234. doi: 10.1093/nar/gkh008
- [23] Jumper, J. et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596, 583-589. doi: 10.1038/s41586-021-03819-2
- [24] Tunyasuvunakool, K. et al. (2021). Highly accurate protein structure prediction for the human proteome. Nature, 596, 590-596. doi: 10.1038/s41586-021-03828-1
- [25] Søndergaard, C. R. et al. (2011). Improved Treatment of Ligands and Coupling Effects in Empirical Calculation and Rationalization of pKa Values. Journal of Chemical Theory and Computation, 7, 2284-2295. doi: 10.1021/ct200133y
- [26] Durrant, J. D. et al. (2014). POVME 2.0: An Enhanced Tool for Determining Pocket Shape and Volume Characteristics. Journal of Chemical Theory and Computation, 10, 5047-5056. doi: 10.1021/ct500381c
- [27] Wagner, J. R. et al. (2017). POVME 3.0: Software for Mapping Binding Pocket Flexibility. Journal of Chemical Theory and Computation, 13, 4584-4592. doi: 10.1021/acs.jctc.7b00500
- [28] Le Guilloux, V. et al. (2009). Fpocket: An open source platform for ligand pocket detection. BMC Bioinformatics, 10, 168. doi: 10.1186/1471-2105-10-168
- [29] Schmidtke, P. et al. (2010). fpocket: online tools for protein ensemble pocket detection and tracking. Nucleic Acids Research, 38, W582-W589. doi: 10.1093/nar/gkq383
- [30] Halgren, T. A. (2009). Identifying and Characterizing Binding Sites and Assessing Druggability. Journal of Chemical Information and Modeling, 49, 377-389. doi: 10.1021/ci800324m
- [31] Dennis, S. et al. (2002). Computational mapping identifies the binding sites of organic solvents on proteins. Proceedings of the National Academy of Sciences, 99, 4290-4295. doi: 10.1073/pnas.062398499
- [32] Kozakov, D. et al. (2015). The FTMap family of web servers for determining and characterizing ligand-binding hot spots of proteins. Nature Protocols, 10, 733-755. doi: 10.1038/nprot.2015.043
- [33] Beglov, D. et al. (2018). Exploring the structural origins of cryptic sites on proteins. Proceedings of the National Academy of Sciences, 115, E3416-E3425. doi: 10.1073/pnas.1711490115
- [34] Xia, X. (2017). Bioinformatics and Drug Discovery. Current Topics in Medicinal Chemistry, 17, 1709-1726. doi: 10.2174/1568026617666161116143440
- [35] Irwin, J. J. et al. (2020). ZINC20 - A Free Ultralarge-Scale Chemical Database for Ligand Discovery. Journal of Chemical Information and Modeling, 60, 6065-6073. doi: 10.1021/acs.jcim.0c00675
- [36] Kim, S. et al. (2015). PubChem Substance and Compound databases. Nucleic Acids Research, 44, D1202-D1213. doi: 10.1093/nar/gkv951
- [37] van Hilten, N. et al. (2019). Virtual Compound Libraries in Computer-Assisted Drug Discovery. Journal of Chemical Information and Modeling, 59, 644-651. doi: 10.1021/acs.jcim.8b00737
- [38] Lipinski, C. A. et al. (1997). Experimental and computational approaches to estimate solubility and permeability in drug discovery and development settings. Advanced Drug Delivery Reviews, 23, 3-25. doi: 10.1016/S0169-409X(00)00129-0
- [39] Bickerton, G. R. et al. (2012). Quantifying the chemical beauty of drugs. Nature Chemistry, 4, 90-98. doi: 10.1038/nchem.1243
- [40] Baell, J. B. & Holloway, G. A (2010). New Substructure Filters for Removal of Pan Assay Interference Compounds (PAINS) from Screening Libraries and for Their Exclusion in Bioassays. Journal of Medicinal Chemistry, 53, 2719-2740. doi: 10.1021/jm901137j
- [41] Bruns, R. F. & Watson, I. A. (2012). Rules for identifying potentially reactive or promiscuous compounds. Journal of Medicinal Chemistry, 55, 9763-9772. doi: 10.1021/jm301008n
- [42] Shelley, J. C. et al. (2007). Epik: A software program for pKa prediction and protonation state generation for drug-like molecules. Journal of Computer-Aided Molecular Design, 21, 681-691. doi: 10.1007/s10822-007-9133-z
- [43] Ropp, P. J. et al. (2019). Dimorphite-DL: an open-source program for enumerating the ionization states of drug-like small molecules. Journal of Cheminformatics, 11, 14. doi: 10.1186/s13321-019-0336-9
- [44] Sastry, G. M. et al. (2013). Protein and ligand preparation: Parameters, protocols, and influence on virtual screening enrichments. Journal of Computer-Aided Molecular Design, 27, 221-234. doi: 10.1007/s10822-013-9644-8
- [45] Ropp, P. J. et al. (2019). Gypsum-DL: an open-source program for preparing small-molecule libraries for structure-based virtual screening. Journal of Cheminformatics, 11, 34. doi: 10.1186/s13321-019-0358-3
- [46] Morris, G. M. et al. (2009). AutoDock4 and AutoDockTools4: Automated docking with selective receptor flexibility. Journal of Computational Chemistry, 30, 2785-2791. doi: 10.1002/jcc.21256
- [47] Trott, O. & Olson, A. J. (2010). AutoDock Vina: Improving the speed and accuracy of docking with a new scoring function, efficient optimization, and multithreading. Journal of Computational Chemistry, 31, 455-461. doi: 10.1002/jcc.21334
- [48] Eberhardt, J. et al. (2021). AutoDock Vina 1.2.0: New Docking Methods, Expanded Force Field, and Python Bindings. Journal of Chemical Information and Modeling. doi: 10.1021/acs.jcim.1c00203 (Epub ahead of print)
- [49] Friesner, R. A. et al. (2004). Glide: A New Approach for Rapid, Accurate Docking and Scoring. 1. Method and Assessment of Docking Accuracy. Journal of Medicinal Chemistry, 47, 1739-1749. doi: 10.1021/jm0306430
- [50] Halgren, T. A. et al. (2004). Glide: A New Approach for Rapid, Accurate Docking and Scoring. 2. Enrichment Factors in Database Screening. Journal of Medicinal Chemistry, 47, 1750-1759. doi: 10.1021/jm030644s
- [51] Jain, A. N. (2003). Surflex: Fully Automatic Flexible Molecular Docking Using a Molecular Similarity-Based Search Engine. Journal of Medicinal Chemistry, 46, 499-511. doi: 10.1021/jm020406h
- [52] Jones, G. et al. (1997). Development and validation of a genetic algorithm for flexible docking. Journal of Molecular Biology. Journal of Molecular Biology, 267, 727-748. doi: 10.1006/jmbi.1996.0897
- [53] Ruiz-Carmona, S. et al. (2014). rDock: A Fast, Versatile and Open Source Program for Docking Ligands to Proteins and Nucleic Acids. PLoS Computational Biology, 10, e1003571. doi: 10.1371/journal.pcbi.1003571
- [54] Mysinger, M. M. et al. (2012). Directory of useful decoys, enhanced (DUD-E): Better ligands and decoys for better benchmarking. Journal of Medicinal Chemistry, 55, 6582-6594. doi: 10.1021/jm300687e
- [55] Vieira, T. F. & Sousa S. F. (2019). Comparing AutoDock and Vina in Ligand/Decoy Discrimination for Virtual Screening. Applied Sciences, 9, 4538. doi: 10.3390/app9214538
- [56] Feinstein, W. P. & Brylinski. M. (2015). Calculating an optimal box size for ligand docking and virtual screening against experimental and predicted binding pockets. Journal of Cheminformatics, 7, 18. doi: 10.1186/s13321-015-0067-5
- [57] Cleves, A. E. & Jain, A. N. (2020). Structure- and Ligand-Based Virtual Screening on DUD-E+ : Performance Dependence on Approximations to the Binding Pocket. Journal of Chemical Information and Modeling, 60, 4296-4310. doi: 10.1021/acs.jcim.0c00115
- [58] Yanagisawa, K. (2019). Fast structure-based virtual screening with commonality of compound substructure. Tokyo Institute of Technology, Ph. D. thesis.
- [59] Chaput, L. et al. (2016). Benchmark of four popular virtual screening programs: construction of the active/decoy dataset remains a major determinant of measured performance. Journal of Cheminformatics, 8, 56. doi: 10.1186/s13321-016-0167-x
- [60] Ericksen, S. S. et al. (2017). Machine Learning Consensus Scoring Improves Performance Across Targets in Structure-Based Virtual Screening. Journal of Chemical Information and Modeling, 57, 1579-1590. doi: 10.1021/acs.jcim.7b00153
- [61] Niinivehmas, S. P. et al. (2015). Ultrafast protein structure-based virtual screening with Panther. Journal of Computer-Aided Molecular Design, 29, 989-1006. doi: 10.1007/s10822-015-9870-3
- [62] Berenger, F. et al. (2021). Lean-Docking: Exploiting Ligands' Predicted Docking Scores to Accelerate Molecular Docking. Journal of Chemical Information and Modeling, 61, 2341-2352. doi: 10.1021/acs.jcim.0c01452
- [63] Yanagisawa, K. et al. (2017). Spresso: an ultrafast compound pre-screening method based on compound decomposition. Bioinformatics, 33, 3836-3843. doi: 10.1093/bioinformatics/btx178
- [64] Kantardjiev, A. A. (2012). Quantum.Ligand.Dock: Protein-ligand docking with quantum entanglement refinement on a GPU system. Nucleic Acids Research, 40, W415-W422. doi: 10.1093/nar/gks515
- [65] McIntosh-Smith, S. et al. (2014). High performance in silico virtual drug screening on many-core processors. The International Journal of High Performance Computing Applications, 29, 119-134. doi: 10.1177/1094342014528252
- [66] Santos-Martins, D. et al. (2021). Accelerating AutoDock 4 with GPUs and Gradient-Based Local Search. Journal of Chemical Theory and Computation, 17, 1060-1073. doi: 10.1021/acs.jctc.0c01006t
- [67] Ravindranath, P. A. et al. (2015). AutoDockFR: Advances in Protein-Ligand Docking with Explicitly Specified Binding Site Flexibility. PLoS Computational Biology, 11, e1004586. doi: 10.1371/journal.pcbi.1004586
- [68] Tian, S. et al. (2014). Assessing an Ensemble Docking-Based Virtual Screening Strategy for Kinase Targets by Considering Protein Flexibility. Journal of Chemical Information and Modeling, 54, 2664-2679. doi: 10.1021/ci500414b
- [69] Uehara, S. & Tanaka, S. (2017). Cosolvent-Based Molecular Dynamics for Ensemble Docking: Practical Method for Generating Druggable Protein Conformations. Journal of Chemical Information and Modeling, 57, 742-756. doi: 10.1021/acs.jcim.6b00791
- [70] Fischer, A. et al. (2021). Decision Making in Structure-Based Drug Discovery: Visual Inspection of Docking Results. Journal of Medicinal Chemistry, 64, 2489-2500. doi: 10.1021/acs.jmedchem.0c02227
- [71] Salomon-Ferrer, R. et al. (2013). An overview of the Amber biomolecular simulation package. WIREs Computational Molecular Science, 3, 198-210. doi: 10.1002/wcms.1121
- [72] Abraham, M. J. et al. (2015). GROMACS: High performance molecular simulations through multi-level parallelism from laptops to supercomputers. SoftwareX, 1-2, 19-25. doi: 10.1016/j.softx.2015.06.001
- [73] Phillips, J. C. et al. (2005). Scalable molecular dynamics with NAMD. Journal of Computational Chemistry, 26, 1781-1802. doi: 10.1002/jcc.20289
- [74] Brooks, B. R. et al. (2009). CHARMM: The biomolecular simulation program. Journal of Computational Chemistry, 30, 1545-1614. doi: 10.1002/jcc.21287
- [75] Bowers, K. J. et al. (2006). Scalable algorithms for molecular dynamics simulations on commodity clusters. In Proceedings of the 2006 ACM/IEEE conference on Supercomputing (SC '06), 84. doi: 10.1145/1188455.1188544
- [76] De Vivo, M. et al. (2016). Role of Molecular Dynamics and Related Methods in Drug Discovery. Journal of Medicinal Chemistry, 59, 4035-4061. doi: 10.1021/acs.jmedchem.5b01684
- [77] Liu, K. & Kokubo, H. (2017). Exploring the Stability of Ligand Binding Modes to Proteins by Molecular Dynamics Simulations: A Cross-docking Study. Journal of Chemical Information and Modeling, 57, 2514-2522. doi: 10.1021/acs.jcim.7b00412
- [78] Virtanen, S. I. et al. (2015). Case-specific performance of MM-PBSA, MM-GBSA, and SIE in virtual screening. Journal of Molecular Graphics and Modelling, 62, 303-318. doi: 10.1016/j.jmgm.2015.10.012
- [79] Poli, G. et al. (2020). Application of MM-PBSA Methods in Virtual Screening. Molecules, 25, 1971. doi: 10.3390/molecules25081971
- [80] Fujitani, H. et al. (2005). Direct calculation of the binding free energies of FKBP ligands. The Journal of Chemical Physics, 123, 084108. doi: 10.1063/1.1999637
- [81] Drwal, M. N. & Griffith, R. (2013). Combination of ligand- and structure-based methods in virtual screening. Drug Discovery Today: Technologies, 10, e395-e401. doi: 10.1016/j.ddtec.2013.02.002
- [82] Vázquez, J. et al. (2020). Merging Ligand-Based and Structure-Based Methods in Drug Discovery: An Overview of Combined Virtual Screening Approaches. Molecules, 25, 4723. doi: 10.3390/molecules25204723
- [83] Jiménez, J. et al. (2017). DeepSite: protein-binding site predictor using 3D-convolutional neural networks. Bioinformatics, 33, 3036-3042. doi: 10.1093/bioinformatics/btx350
- [84] Stepniewska-Dziubinska, M. M. et al. (2020). Improving detection of protein-ligand binding sites with 3D segmentation. Scientific Reports, 10, 5035. doi: 10.1038/s41598-020-61860-z
- [85] Mylonas, S. K. et al. (2021). DeepSurf: a surface-based deep learning approach for the prediction of ligand binding sites on proteins. Bioinformatics, 37, 1681-1690. doi: 10.1093/bioinformatics/btab009
- [86] Kozlovskii, I. & Popov, P. (2021). Protein-Peptide Binding Site Detection Using 3D Convolutional Neural Networks. Journal of Chemical Information and Modeling. doi: 10.1021/acs.jcim.1c00475 (Epub ahead of print)
- [87] Shen, C. et al. (2020). From machine learning to deep learning: Advances in scoring functions for protein-ligand docking. WIREs Computational Molecular Science, 10, 1-23. doi: 10.1002/wcms.1429
- [88] Yasuo, N. & Sekijima, M. (2019). Improved Method of Structure-Based Virtual Screening via Interaction-Energy-Based Learning. Journal of Chemical Information and Modeling, 59, 1050-1061. doi: 10.1021/acs.jcim.8b00673
- [89] Ji, B. et al. (2021). Machine learning on ligand-residue interaction profiles to significantly improve binding affinity prediction. Briefings in Bioinformatics. doi: 10.1093/bib/bbab054 (Epub ahead of print)
- [90] Ragoza, M. et al. (2017). Protein-Ligand Scoring with Convolutional Neural Networks. Journal of Chemical Information and Modeling, 57, 942-957. doi: 10.1021/acs.jcim.6b00740
- [91] Jiménez, J. et al. (2018). KDEEP: Protein-Ligand Absolute Binding Affinity Prediction via 3D-Convolutional Neural Networks. Journal of Chemical Information and Modeling, 58, 287-296. doi: 10.1021/acs.jcim.7b00650
- [92] Imrie, F. et al. (2018). Protein Family-Specific Models Using Deep Neural Networks and Transfer Learning Improve Virtual Screening and Highlight the Need for More Data. Journal of Chemical Information and Modeling, 58, 2319-2330. doi: 10.1021/acs.jcim.8b00350
- [93] Xiong, G.-L. et al. (2021). Improving structure-based virtual screening performance via learning from scoring function components. Briefings in Bioinformatics, 22, 1-14. doi: 10.1093/bib/bbaa094
- [94] Jin, Z. et al. (2020). Structure of Mpro from SARS-CoV-2 and discovery of its inhibitors. Nature, 582, 289-293. doi: 10.1038/s41586-020-2223-y
- [95] Teralı, K et al. (2020). Prioritizing potential ACE2 inhibitors in the COVID-19 pandemic: Insights from a molecular mechanics-assisted structure-based virtual screening experiment. Journal of Molecular Graphics and Modelling, 100, 107697. doi: 10.1016/j.jmgm.2020.107697
- [96] Ismail, M. I. et al. (2021). Targeting multiple conformations of SARS-CoV2 Papain-Like Protease for drug repositioning: An in-silico study. Computers in Biology and Medicine, 131, 104295. doi: 10.1016/j.compbiomed.2021.104295
- [97] Gupta, A. et al. (2020). Structure-Based Virtual Screening and Biochemical Validation to Discover a Potential Inhibitor of the SARS-CoV-2 Main Protease. ACS Omega, 5, 33151-33161. doi: 10.1021/acsomega.0c04808
- [98] Yanagisawa, K. et al. (2021). EXPRORER: Rational Cosolvent Set Construction Method for Cosolvent Molecular Dynamics Using Large-Scale Computation. Journal of Chemical Information and Modeling, 61, 2744-2753. doi: 10.1021/acs.jcim.1c00134
著者略歴
|
柳澤 渓甫 2019年 東京工業大学情報理工学院情報工学系博士後期課程を修了。博士(工学)。日本学術振興会 特別研究員(PD)を経て、2020年より東京工業大学情報理工学院情報工学系助教。専門は創薬インフォマティクス。タンパク質立体構造に基づく創薬手法を物理化学ベース、機械学習ベースの両面から開発する。同時に、データサイエンス教育にて令和元年度 東工大教育賞(優秀賞)を受賞、教育にも精力的に取り組んでいる。 |