JSBi Bioinformatics Review
Online ISSN : 2435-7022
総説
AlphaFold2までのタンパク質立体構造予測の軌跡とこれから
森脇 由隆
著者情報
ジャーナル オープンアクセス HTML

2022 年 3 巻 2 号 p. 47-60

詳細
Abstract

タンパク質を構成するアミノ酸配列からその安定な立体構造を予測することは、生命科学の研究において非常に重要な意味を持っている。このために多くの実験研究者は60年以上に渡って1つ1つのタンパク質の構造を決定し、計算科学者は30年以上もの間、立体構造予測の技術を進化させてきた。2020年11月30日にDeepMind社が発表したAlphaFold2は、わずかな時間でアミノ酸配列からその立体構造を極めて高い精度で予測できることを示し、さらにはこれが2021年7月16日(日本時間)に無償で一般に使用可能となったことで、生命科学全般の研究に大きな影響を与えた。本稿ではAlphaFold2に至るまでの歴史的経緯、その予測手法、AlphaFold2が与えた影響と将来の展望について紹介する。

タンパク質の構造と機能

タンパク質はウイルスを含むほぼすべての生命体において生命維持に不可欠な物質であり、様々な機能を担っている。ヒトにおいては、体を動かすための筋肉を構成するアクチン・ミオシンといった収縮タンパク質、酸素を運搬するためのヘモグロビン、免疫機能を担う抗体など、他にも様々なタンパク質が存在し、生命活動を支えている。化学の観点からすると、タンパク質は20種類のアミノ酸がペプチド結合を介してポリペプチド鎖を形成する巨大な分子と見なされるが、一般に多くのタンパク質はある固有の立体構造を形成することではじめてその機能を発揮している。言い換えれば、化学的組成が同じであるポリペプチド鎖であっても、立体構造が正しく形成されていない状態ではそのタンパク質の本来の機能を発揮することができない。1972年のノーベル化学賞受賞者であるChristian B. Anfinsenはタンパク質リボヌクレアーゼAの折りたたみについての研究[1, 2, 3]から、タンパク質の最安定な立体構造は、適切な環境(例えば溶媒、pH、イオン強度、金属イオンや補因子、温度など)が揃った条件下であれば、そのアミノ酸配列によってのみ決定されるという「アンフィンゼンのドグマ」と呼ばれる仮説を提唱した。この仮説が提唱されて以降およそ50年間、1次元のアミノ酸配列情報からその安定な立体構造を求める試みが実験科学・計算科学からともになされ、生命科学の分野で最も大きな問題の1つとして認識されてきた。

立体構造予測ソフトウェアが望まれた理由

1958年にミオグロビン[4]、1960年にヘモグロビン[5]のX線結晶構造解析が行われたことをきっかけとして、タンパク質の立体構造から生化学の理解の上で極めて重要な情報が得られることが判明した。1965年にはリゾチームの構造決定[6, 7]が酵素で初めての成功例となっただけでなく、阻害剤や基質アナログとの複合体構造を根拠にタンパク質の活性を議論することも可能となり[8, 9, 10]、生体分子の立体構造をもとに生命現象の諸相を理解しようとする「構造生物学」が誕生した。しかし、1つ1つのタンパク質の実験的な構造決定は非常に時間と手間のかかる仕事であり、2022年9月現在でProtein Data Bank (PDB)に登録されている立体構造情報はわずか19.5万件程度である。一方で、タンパク質をコードするアミノ酸の配列情報は1990年からの大幅な技術的革新があったゲノムシークエンシングによって加速度的に蓄積されており、現在のUniprot (Swiss-protおよびTrEMBL)データベースには2億以上の配列エントリが登録されている。こうした背景のもと、実験に頼らない計算科学による構造予測手法の開発が望まれることとなり、1994年からは隔年でこの構造予測技術を競うコンペティション:Critical Assessment of protein Structure Prediction (CASP)が始動した。本稿では第14回に登場したAlphaFold2 (AF2)までの歴史とこれ以降の展望を記述する。

AF2に至るまでの手法の軌跡

CASPの開催以前から、物理の第一原理と分子動力学 (MD)シミュレーションを用いて安定なタンパク質立体構造を推定する試みは多くなされてきた。このおよそ30年間でレプリカ交換分子動力学[11]、メタダイナミクス法[12]と言った構造サンプリング手法の改善があったものの、現在においても高々100残基程度のタンパク質までしか現実的な時間での計算が終了しないため、多くのタンパク質の安定構造を求めることは不可能である。一方で、既知のアミノ酸配列と実験によって構造決定済の構造情報を用いたデータ駆動の推定手法がこの分野で大きな成果を上げ続けてきた。

CASP開催初期のデータ駆動のアプローチは、テンプレート構造を利用するか否かの2つに大別された(図1A)。前者の手法ではBLAST[13, 14, 15, 16, 17]などの配列検索ソフトウェアとPDBデータベースを用いることで予測対象の配列と構造既知の配列について取得した配列アライメントを利用して、アミノ酸の挿入や欠失が生じている箇所周りで主鎖の再構築を行い、変異している場所では側鎖を付け替えて最適化を行う。構造が既知のタンパク質と遠縁にある標的タンパク質配列の場合は、複数のテンプレートに依存し、積極的に主鎖コンフォメーションのサンプリングを行うといった、より高度な手法も用いられた。そのため、予測対象のアミノ酸配列に対する適切なテンプレート構造、すなわち配列相同性の高い既知の立体構造を検出し、変異・挿入・欠失を考慮した配列アライメントを作成する操作が重視された。この手法は比較モデリング法(ホモロジーモデリング法)とも呼ばれ、特に2005年にSödingによって開発された隠れマルコフモデル (HMM)を利用した手法およびそれを実装したソフトウェアHH-suite[18]は非常に高速かつ精度良く遠縁の類縁配列を検出でき、これとModeller[19, 20]というソフトを組み合わせたパイプラインの手法HHPredは近年でも(適切なテンプレート構造が存在するならば)広く利用されている[21]。しかし、当然ながらこの手法は立体構造既知のタンパク質のアミノ酸配列に似た対象配列にしか適用できず、限定的な予測手法であった。

図1:AF2以前の主流なタンパク質構造予測の手法。

鍵となる工程のみを示している。(A)テンプレートを利用する構造予測手法。クエリ配列中に存在する6残基の挿入の位置を予測構造中では紫色で示している。(B)テンプレートを利用しない構造予測手法。フラグメントライブラリを用いて予測構造を出力する過程で、後年になって利用可能となった精度の高い主鎖二面角・残基間距離予測を用いることで構造の探索空間を減らすことができ、計算速度と予測精度の向上に寄与した。MSAについては図2で説明する。

後者のテンプレートを用いない手法では、PDBに登録されているタンパク質と全体的な構造の類似性がないタンパク質にも適用することができる(図1B)。1998年のCASP3以降AF2の登場に至るまで、David Bakerらの開発するソフトウェアRosettaを用いたフラグメントアセンブリ法[22]が新規フォールド(類縁構造がそれまでのPDBに登録されていない構造)への予測問題に対して高いスコアを残し続けてきた[23, 24, 25, 26]。フラグメントアセンブリ法は、たとえ新規フォールドのタンパク質構造であっても、その部分構造は既知の構造断片を組み合わせて作成可能であるという仮定のもと、PDBに存在する立体構造を3または9アミノ酸ごとに分解したフラグメントの集合体(ライブラリ)を用意しておき、予測したいアミノ酸配列に応じてフラグメントを選出し、それをランダムに組み立てた数千から数万個の予測候補のうち、エネルギースコア関数などを利用して最も良いとされる構造を選出する方法である。この手法は物理の第一原理を用いる方法に比べれば計算量は少なく済むものの、それでも残基数が多いほど主鎖・側鎖の二面角などの自由度が増えるため、構造候補の組み合わせ数は爆発的に増加してしまう難点が残っていた。この自由度を削減する初期の試みの1つとして、二次構造を予測するツールPsipred[27]の結果を用いて適切なフラグメントが選出される確率を上げるなどの対策が為された。こうした自由度削減の大きなブレイクスルーとなったのは2009〜2012年頃にかけて構築されたDirect coupling analysis (DCA)と呼ばれる手法に基づくタンパク質のコンタクト予測法である[28, 29, 30](図1B, 2)。これはタンパク質構造の原理、すなわち、ある1つの似たような機能を持つタンパク質群において、それらは全体構造を保つことと活性部位の機能を保つことさえ達成できれば、構成されるアミノ酸の一部を自由に変化させることができるという原理を利用した興味深い手法である。ある水溶性の球状タンパク質について例を取ると、折りたたまれたこのタンパク質の外側には親水性アミノ酸が多く露出しており、内側では疎水性アミノ酸が非常に密になった塊を形成している。ここで、もし何らかの要因でDNAに変異が入り翻訳されるアミノ酸が変化してしまったとする。その変異が外側に露出すべきアミノ酸の位置に発生した場合はタンパク質の全体構造に与える影響が小さく、またその変異が活性部位に発生していなければ、多くの場合は変異前のタンパク質の働きを維持することができるため、その変異タンパク質を持つ生物個体も生き残ることができ、その変異したDNAも次世代に引き継がれると考えられる。一方で、タンパク質の全体構造を支える部位に変異が入った場合、タンパク質全体が不安定化され構造を保てなくなり、同様の変異がいくつか重なると完全に失活してしまい、その生物個体は大きく生存に不利になるだろう。しかし、ここでこのような変異が入ったアミノ酸と接触している周囲のアミノ酸が、この変異に対応できるような別のアミノ酸変異が発生することで、全体構造の安定性を回復できる可能性がある(図2A)。このような変異の組は何世代にも受け継がれ、やがて(全体構造をほぼ同じに保ったままの)配列多様性を生み出すと考えられる。この原理を逆手に取ることで、このようなアミノ酸の共進化(共変異)した配列上の位置を高精度で推定することができれば、それらのアミノ酸は立体構造上でコンタクトしている、すなわち互いに隣り合って存在している可能性が高いため、立体構造推定の大きな手がかりとなる(図2B)。

図2:DCAの原理。

(A)共進化(共変異)の原理。全体構造を不安定化させるようなあるアミノ酸に変異が生じているときに、その周囲に位置するアミノ酸に構造を再安定化させるような変異が重なった場合、それらの変異は保存されやすい。(B)DCAの説明。それぞれの正方形は色に応じて20種類のアミノ酸のいずれかを表している。MSAを作成したのち統計的手法で共進化している残基のペアを検出し、タンパク質立体構造の推定に応用する。

DCAの大まかな手順は次の通りである。

1.予測したいアミノ酸配列(クエリ配列)に対し、HH-suiteなどで類縁配列を配列データベースから検索する。

2.各類縁配列を縦方向に並べ、挿入や欠損部位について各配列に適切にギャップを挿入して長さを揃えることでマルチプルシーケンスアライメント (MSA)を作成する。

3.MSAは各類縁配列を行、その配列中の位置を列とした行列データとしてみなすことができる。この行列の要素は20種類のアミノ酸とギャップ記号の計21文字のうちどれか1つを取るので、例えば0から20までの数値記号に変換すれば計算機上で処理しやすくなる。

この行列データからどの列のペアが共進化しているかを統計学の手法に則って解析することがDCAの目的であり、その統計手法として21状態のPottsモデルに適用した擬尤度最大化法で定式化した生成モデルplmDCA[31]やマルコフ確率場で定式化したGREMLIN[32]などが2013年頃に開発・提案された。

以上の原理から、配列データベース内に存在するクエリ配列に対する配列相同性が高すぎない(1つのしきい値は80%)実効的な類縁配列が十分に多く存在していれば、DCAによって検出できる共進化残基ペアの数も増え、そのクエリ配列内に潜むコンタクト部位の予測精度が上昇することが期待される。この着想のもと、UniProt Reference Clusters (UniRef)[33]のようなアノテーション済みの配列データベースだけでなく、海水や腸内などの環境にある微生物群集から抽出したDNA配列を解析(メタゲノム解析)することで得られた身元不明のタンパク質の配列(断片であっても良い)のデータベースを類縁配列検索の対象に加えることで実効的な類縁配列の本数を増やし、それに比例して構造予測の精度が大幅に上昇したことを示した論文がSergey Ovchinnikov, David Bakerらによって2017年1月に報告された[34]。ここで紹介したHH-suiteおよびBFD[35]とMGnify[36]といったメタゲノム配列データベースから得られるMSAを活用する手法はこれ以降CASP参加者に広く採用され、AF2の構造予測パイプライン中でも活用されていた。

ディープラーニングを用いた立体構造予測

2010年頃から急速に進化し始めたディープラーニング(深層学習)の技術は機械学習、統計学や画像認識の分野だけでなく、様々な学術分野においても応用され始めた。本来は画像・映像処理を専門としてコンピュータに組み込まれている演算装置であるGraphics Processing Unit (GPU)をベクトル・行列演算を中心とした数値処理など他の用途に応用しようとする技術がGeneral-purpose computing on GPU (GPGPU)であり、特にNVIDIA社が製造・販売するGPUと同社が開発するプログラミングインターフェースのCUDAが2022年現在この技術を事実上大きく支えている。

2016年頃からCASPでもディープラーニングを用いて構造予測を向上させる試みが広く見られ始めた。豊田工業大学シカゴ校のJinbo Xuらは、多層のResidual neural network (ResNet)を用いたコンタクト部位予測が、従来の純粋なDCAベースの手法よりも大幅に精度が向上することを発表した[37, 38]。また、日本でも産業技術総合研究所の富井健太郎 研究チーム長らによって、少量のMSAしか得られない場合に配列由来の特徴量を追加することや多量のMSAが得られた時に重みをつけ、これをもとに二次構造や溶媒到達可能な表面積の予測を取り入れたマルチタスクモデルによって立体構造の予測精度が向上する研究が行われていた[39]。

MSAに基づくコンタクト部位予測の結果をもとに、これを残基間距離拘束条件として導入しRosettaを用いたフラグメントアセンブリ法での立体構造生成の自由度を削減する改良法(図1B)が提案され、Jinbo, Sergeyらはこれを用いてCASPにて良い成績を残した[34, 37]。また他の自由度削減方法として、2008年頃に2層のニューラルネットワークでアミノ酸の主鎖二面角を予測する手法が考案されていたが[40, 41]、これもディープラーニングに置き換えた手法が登場し始め[42]、その予測値とコンタクト部位予測(または2つの側鎖のCβ-Cβ距離予測値)を合わせてタンパク質立体構造をモデリングすることで、さらにより良い精度が出ることが期待され始めていた。[43]。

以上の研究成果を基盤として、DeepMind社は2018年に行われたCASP13に参戦し、AlphaFold (version 1)を発表した[44, 45]。このときのAlphaFoldは当時の他の研究グループが開発するソフトウェアの予測精度を大きく上回っていたものの、これに用いられていた手法をまとめると、メタゲノム解析由来の配列も用いて得られたMSAに基づいて、ディープラーニングでDCAによるコンタクト部位予測を元にしたCβ-Cβ距離予測と主鎖二面角予測を行い、Rosettaのフラグメントアセンブリ法の拡張法で構造を生成するといったような既存の手法の順当な延長線上にあり、依然として予測に失敗したタンパク質構造もまだ多く存在していた。また、このAlphaFoldは当時で最高精度の残基間Cβ-Cβ予測距離を与える部分のコードこそ公開したものの、これを元に構造を生成する部分のコードは、一般公開することにライセンス上問題があるソフトウェアRosettaに依存していたこともあり、その詳細な実装の公開はなされず、他の者がこれを用いて立体構造予測を行うことは不可能であった。

しかし2020年のCASP14にて再びDeepMindは現れ、AlphaFold version 2 (AF2)を発表した[46]。このAF2は出題構造全体の94.5%(87/92)についてGDT_TSスコア(CASPにおいて予測構造と実験的に決定された構造の類似性を測定するための尺度であり、90以上であれば同一と見なせる)が70以上、全体の63.0%(58/92)について90以上、中央値が92.4という驚くべき高い精度を示した。また、これに実装された手法は既存のディープラーニングの技術を単に流用しただけでなく、タンパク質の構造上の性質を熟慮した上で構築された、学際的でそれ自体非常に興味深いものだった。そしてver.1の時と異なり、AF2の構造推論部分のソースコードはGitHub上で完全に公開され、計算機さえあれば誰でもその構造予測を再現することが可能となった。以下では、そのAF2で実装された予測手法の一部を紹介する。

AF2構造予測の処理フロー

AF2はこれまでの当該研究分野の知見を踏まえ、共進化の原理および大量の類縁配列を用いたMSAから得られる共進化残基ペア情報を構造予測に利用している。しかし、MSAを用いて各残基間の距離を推定する処理において、AF2はEvoformerと名付けたディープラーニングモデルを構築し、従来の統計学的な手法であるPottsモデルやDeep ResNetによる残基間距離予測の精度を大きく更新した。また構造を組み立てる部分(Structure module)において、Rosettaフラグメントアセンブリ法に代わってこれまでに類型のなかったInvariant Point Attentionと呼ばれるディープラーニングモデルをこのために独自に開発した。これらはともに現在の自然言語処理の分野で非常に大きな成功を収めているTransformer[47]をベースとしたディープラーニングモデルである。以下にAF2の処理の流れを掲載する。

1.入力配列をもとにMSAの生成およびPDBに登録されている近しい構造をテンプレート構造として取得する処理を行い、これらからMSA表現 (MSA representation)・ペア表現 (pair representation)という特徴量を生成する。この部分をEmbeddingと呼ぶ。

2.この2つの特徴量をEvoformerモジュールで更新し、それらの精度を高める。

3.更新された特徴量を用いて、Structure Moduleで入力配列の立体構造を予測する。

4.処理2と3の流れを繰り返す処理 (recycling)を3回ほど行いさらに精度を高め、予測構造を出力する。

5.4.で出てきた予測構造に分子動力学ベースの簡単な構造最適化計算をかけて最終的な予測結果として出力する。

第1の処理ブロックであるEmbeddingではまず入力配列(構造予測したいアミノ酸配列)に対して、既存の類縁配列検索ツールjackHMMER[48]とHH-Suiteに含まれるモジュールHHblits, HHsearchを用いてそれぞれMSAおよびテンプレート構造の取得を行う(図3)。MGnify配列データベースとUniRef90データベースに対してはjackHMMERを、BFDとUniclust30配列データベースに対してはHHblitsを、それぞれ利用してMSAを取得する。Uniref90のMSA結果をインプットとしてPDB70構造データベースから入力配列についてのテンプレート構造を取得する。公開されているAF2プログラムの構造予測処理上では、msasディレクトリに生成されるmgnify_hits.sto, uniref90_hits.sto, bfd_uniclust_hits.a3mファイルが生のMSAデータで、pdb70_hits.hhrファイルにランク付けされたテンプレート構造の候補が記されている。次に、この2つのファイルとテンプレート構造情報をもとにMSA表現とペア表現の初期特徴量を生成する。AF2論文のSupplementary 1.2〜1.5節で紹介されているこれらの特徴量の生成の流れを読むと、初期のMSA表現は大まかに言えば得られた生のMSAと入力配列の残基情報を結びつけたもの、ペア表現は入力配列が持つ2つの残基ijについて、各残基間の空間的な位置関係情報を保持する特徴量と考えることができる。後述のEvoformerモジュールに進む前に、テンプレート構造が1つ以上取得できた場合にはMSA表現にはテンプレートを参照して各残基の持つ主鎖・側鎖の二面角情報が、ペア表現には残基間距離の情報がそれぞれ加えられる。MSA表現の1行目は常に入力配列の情報、2行目以降は取得してきたMSA配列の情報が格納されている一方で、ペア表現の方は入力配列が持つ残基についてのみの情報で構成されていることに留意しておきたい。

図3:AF2のEmbeddingの処理の流れ。

構造予測したいアミノ酸配列をもとに、多くのデータベースを用いてMSAとテンプレート構造を検索し、Evoformerに向けたMSA由来の特徴量、テンプレート構造由来の特徴量を生成する。詳細はAF2論文のSuppl. 1.2.9とSupplementary Figure 1を参照。

第2の処理ブロックであるEvoformerの主な目的は、Embeddingで得られたMSA表現・ペア表現特徴量を用いて、この後に続くStructure moduleで入力配列から立体構造を具現化するために必要なこれらの特徴量を洗練させることである(図4)。AF2論文のSupplementary 1.6節に、公開されているコードではalphafold/model/modules.py内に、それぞれこの手法の詳細が記されている。EvoformerはMSA表現についての更新操作(MSA row-wise gated self-attentionとMSA column-wise gated self-attention)と、ペア表現の更新操作(Triangular multiplicative updateとTriangular self-attention)の2つのサブブロックに分けて考えることができる。これらの2つの特徴量は本来強く相関しているものであるため、両者間で情報を交換しながら互いの更新を行うと解釈することができる。

図4:Evoformerの処理の概要。

AF2論文のFig. 3aを参考に作成した。Evoformerブロックは48回繰り返され、最後に更新されたMSA表現とペア表現を得る。このうちMSA表現の1行目に存在している予測対象の配列についての特徴量とペア表現がStructure Moduleのインプットとなる。

MSA row-wise gated self-attentionとMSA column-wise gated self-attentionはそれぞれ行方向と列方向にゲート付きのself-attentionを適用するという操作を表す。Self-attentionについての説明は非常に長くなるため深く述べないが、ここでは与えられた配列(アミノ酸配列やMSA)情報について、自身の配列全体を見渡しながらどことどこの関係性が重要であるかそうでないかという情報を見つけ出すために使われる手法と考えてよいだろう。ゲートとは、ある情報が弱すぎる(通常、本当に意味を持たない)場合にそれを0とすることで情報を適切に取捨選択できるようにする機構である。このRow-wise gated self-attentionではすなわちある1つのタンパク質を構成するアミノ酸配列(MSA表現中では各行に相当することに留意)について、あるアミノ酸残基iが全アミノ酸残基からの影響を考慮して情報をアップデートする処理を行うと言える。このとき興味深いのはペア表現が持っている各残基間の空間的な位置関係情報をバイアスとして加算している点で、これによって「現時点で空間的に近い位置関係にあるとされる残基位置のペアは、互いに影響を受けやすいだろう(→つまり、MSA表現に含まれる二面角情報も影響を受けるだろう)」と重要視するようになることである(この詳細はself-attention機構を参照されたい)。続くColumn-wiseとはすなわち他の類縁タンパク質では同じ残基位置にどのようなアミノ酸が登場しているかということを見渡し、どの類縁配列に着目すべきかそうでないかの情報を見つけ出すことになる。Row-wiseと合わせると、この処理の流れはあたかも人間が生のMSAを眺め続けているうちに、ある残基位置には決まって同じアミノ酸が存在していることに気付いたり、共進化している残基位置のペアを見つけ出したりして、そのことをなんとなく意識しはじめることを模していると解釈できる。そして続くtransitionとOuter product meanのサブブロックで、MSA表現の内容をペア表現へ追加する。

ペア表現の更新は図4における2つのTriangle updateサブブロックで行われる(AF2論文中ではまとめてTriangular multiplicative updateと呼ばれている;AF2論文のFig 3cとSuppl. 1.6.5を参照)。ここでの意図は、注目する2つの残基i, jとそれら以外の任意の1つの残基kの間で「残基ij間の距離<残基ik間の距離+残基jk間の距離」という三角不等式が成立していることを意識させながらij成分の特徴量を更新させるということである。さらにこのペア表現は主に残基間の位置関係、距離情報の特徴量を持っていることを思い出すと、特にその距離情報はij成分とji成分で対称的になっていることが望ましい。そこでこのサブブロックではこれを考慮するかのように残基ijから出ていく向きのoutgoingと入ってくる向きのincomingの2回に分けて同様の操作を行っていると推察される。そして続く2つのTriangular self-attentionサブブロック(AF2論文 Suppl. 1.6.6)では、設計の意図は直前のTriangle updateサブブロックと同じであるがself-attentionのやり方を用いている点で異なる。開始点(または終端点)を残基iとしてij成分を更新するとき、self-attentionによって重要とされるik成分の選択だけでなく、jk成分の現在の値を考慮しているという点で工夫が見られる。AF2論文の本文によれば、当初はTriangluar multiplicative updateをself-attentionに代わる簡単でより対称的になりやすいものとして導入していており、それぞれだけでも高い精度に繋がったが、2つ合わせると精度がより高くなったと述べられている。

このMSA表現とペア表現の更新を48回繰り返すことで精度の高いペア表現を得ることができる。この繰り返し処理によって収束解を得るEvoformerの手法は、MSAからペア表現の一部に相当する特徴量を一度だけ計算し利用していた伝統的なDCAよりも良い精度が得られることが期待できると考えられる。

Evoformerで得られたペア表現と元の予測した配列情報を用いて、Structure moduleにおいて実際に立体構造を組み立てる処理を行う(図5)。この部分は近年のコンピュータービジョンの分野で発展していたディープラーニング技術を応用したものであると説明されている。大まかに言えば、タンパク質を構成する各アミノ酸パーツを、まずそのN-Cα-C原子で構成される3点の原子座標からなる三角形の集合で表し、この三角形パーツ(バックボーンフレーム)たちの空間上での尤もらしい配置を計算していく処理である。この各アミノ酸パーツは体積を持たないガス状の理想的な点として取り扱われ、はじめ空間上の原点上に配置されている。そこから、入力アミノ酸配列由来の特徴量とペア表現の特徴量を用いて、各パーツに対して回転行列と並進操作を行い、位置を更新する操作を行う。主鎖・側鎖の二面角の値も浅いResNetモデルによって予測される。続いて、これらに加えEvoformerのペア表現で得た他の残基との間の距離情報も用いて、側鎖を含む全原子の座標を計算する。さらにこれによって入力特徴量は再び更新され、この一連の処理を8回繰り返した後に予測されたタンパク質立体構造を出力する。

図5:Structure moduleで行われる立体構造構築処理。

各20種類のアミノ酸は主鎖構造のN-Cα-C原子で構成される三角形をバックボーンフレームとし、この残基のフレームiに対して回転行列Rと並進操作tを組み合わせたTiという操作を繰り返して主鎖骨格を構築する。各操作Tiは原点からの操作であることに注意する。操作Tiは入力配列の特徴量とペア表現とInvariant point attention (IPA, AF2論文のAlgorithm 22)によって得られる(AF2論文のFig. 3d)。また、各残基の主鎖と側鎖の二面角の更新は主鎖フレームの更新操作後に行い、全原子の座標を計算する(同Algorithm 24)。ペプチドのball-and-stickモデルの図はWikipedia「二面角」の記事から引用した。

アミノ酸を構成する残りの原子については、各2原子間距離と3原子間角度の値は文献値で固定しておき(文献値はalphafold/common/stereo_chemical_props.txtに書かれている)、4原子間で定義される二面角の値を予測によって出力すべき値としている。すなわち、各残基についての予測された尤もらしい二面角と予測残基間距離を主に用いることでAF2は構造を具現化している。興味深いことに、この時点では各原子は体積を持たない理想的な点として取り扱われ、各残基の間で形成されるペプチド結合についてその結合距離やトランス型ペプチド結合となっているかなどの制約は一切入れていない。このため一見まともなポリペプチド鎖構造が作られないように思えるが、これによって各残基の速やかな配置を行うことができる。正しいペプチド結合の形成は後ほどの誤差計算時に強く働きかけられる。

以上がEvoformerおよびStructure Moduleによる予測構造の出力の流れであるが、ユーザーはAF2が訓練済のパラメータをダウンロードして利用するだけで精緻な予測立体構造を短時間で得られるようになっている。これらのパラメータの学習時について少しだけ触れるとすれば、Structure moduleで用いられているアルゴリズムを利用して予測した各バックボーンフレーム構造と真の構造との間の誤差を評価するFrame aligned point error (FAPE)と呼ばれる評価関数を導入した点も極めて新しい。この評価関数によって、本来天然には存在しない鏡像体のタンパク質が生成されてしまう可能性(タンパク質を構成するアミノ酸はL体であるが、D体アミノ酸を用いれば残基間距離と二面角の値が完全に同じとなる鏡像タンパク質は理論上存在可能である)をを排除することができる(AF2論文のSuppl.1.9.3)。このFAPEによる誤差関数項に加え、通常の構造のゆがみに起因する誤差やMSA表現による誤差などを加え、Supplementary 1.9節で示す誤差関数を定義している。

また、AF2は自身の出力した予測構造についてpLDDTとpTM-scoreという指標を用いてそれぞれ残基単位・全体構造単位での信頼性を提示している。pLDDTはpredicted Local Distance Difference Testの略称で、CASP9ではじめてMarianiらの研究グループによって導入されたlDDTという指標[49]を模したものである。lDDTは正解構造(結晶構造)中のある対象の原子の集合から一定半径(inclusion radius、通常15 Å)以内に存在しかつ自身の残基に含まない原子の集合に対してすべての原子間距離を計算し、この距離の集合および各値が予測構造中で保存されている割合を算出するものである。このためlDDTは回転・並進不変的であり、局所的な評価指標として用いることができる。AF2のモデルは各残基中のCα炭素のみを対象としたlDDT-Cαを用いて、既知の結晶構造が存在するタンパク質についてAF2の出力した予測構造と照らしたときのlDDT-Cαを計算して訓練し、これを用いて正解構造のないタンパク質についても予測値pLDDTを与えることができる。また、この局所的な信頼性を与えるpLDDTに対して、マルチドメインタンパク質構造全体の信頼性を評価するためにpTM-scoreという予測指標も用意されている。こちらは本来のTM-scoreの定義[50]を踏まえた上で、ペア表現とStructure Moduleでのバックボーンフレームの更新操作Tiを用いてそのスコアの下界を見積もる近似を行っている。詳細はAF2論文のSuppl.1.9.7を参照されたい。この近似により、重要な指標として、残基iのバックボーンフレームを用いてAF2の出した予測構造と実験的に決定された構造を並べたときの、残基 jのCα原子の位置の誤差を表す非対称行列eijを得ている。これはAF2 のPredicted aligned error (PAE)とも呼ばれ、正解構造が存在していない構造の予測において、タンパク質の残基iと残基jの間の相対的な誤差が大きい箇所はその予測の信頼性が低いことを意味する。例えば、1つのポリペプチド鎖中に複数の構造ドメインを数珠つなぎのような形で持つようなタンパク質(モジュラータンパク質とも呼ぶ)の場合、AF2を用いた構造予測において各構造ドメイン内の2つの残基間におけるPAEは低いが、構造ドメインをまたいで存在する2つの残基間でのPAEは本質的に高く表示される。pTM-scoreはこのPAEの関数となり(AF2 論文の(39)式)、PAEが全体的に低いほどpTM-scoreは高くなる。これら2つの指標が明示されていることで、ユーザーはAF2の予測構造について局所的な精度、あるいは全体構造の相対的な位置関係の信頼性を考慮した上で各自の研究に取り入れることができるようになっている。

他にも、AF2はディープラーニング分野で用いられる様々な技術を使って学習を行い、より精度の高い予測を実現させていることが論文中で紹介されている。例を挙げると、Evoformer/Structure Moduleによって出てきた構造と特徴量を再度Evoformer前のインプットとして再投入し、さらに精度を上げるRecycling[51, 52]や、PDBに登録されている構造データ17万件(重複含む)を用いた学習で一度モデルのパラメータを訓練した後、Uniclust30配列データベースに存在する冗長性を排除した多様性に富む配列35万件の予測構造の精度が高いと判定した配列データをそれらに混ぜ、再度最初から訓練することで精度を大幅に上昇させるnoisy student[53]とself-distillation[54, 55]という手法が取り入れられている。

AF2公開後の1年

2021年7月16日(日本時間)に公開されたAF2はすぐに世界中のタンパク質構造の研究者たちによって追試された。本稿の筆者も、AF2が公開された直後から丸1日ほど使って動作方法とインストール方法を解読し、その日本語記事をウェブ上に掲載した[56]。また、実験研究者が持つ未発表の結晶構造の座標と寸分違わず一致したという報告や、また位相が決定できずお蔵入りになりかけていたX線回折データに対してAF2の与えたモデル構造を用いて分子置換法を適用したところ、簡単に構造が解けてしまったという報告が世界中からSNS上に投稿された。これらの報告はすなわちCASP14の結果発表で示された驚くべき予測精度が誇張ではなかったことを証明しており、すぐさまAF2の衝撃が認知されていった。

リリース直後のAF2は単量体構造、すなわち1つのポリペプチド鎖に対する構造予測しか対応していなかったため、自身または他のタンパク質と複合体を形成したときの複合体構造予測機能の需要が高まり、この分野での予測精度の向上がCASP15以降の焦点になるだろうと想定された。しかし、AF2の公開の3日後に、筆者はAF2がMSAから共進化情報を取得していることから着想して「強く結合する2つのタンパク質を長いGlyリンカーでつなぐとAF2で擬似的な複合体予測ができてしまうのではないか」と試したところ、ある程度のケースで正しく予測できてしまうことをTwitter上で示した。このツイートは世界的に反響を呼び、DeepMindの開発チームもこれを受けて2021年10月に複合体予測に対応したAlphaFold-Multimer (AF-Multimer)の論文とその追加実装をAlphaFold 2.1.0として公開した[57]。2022年3月のバージョン2.2.0ではさらに複合体の予測精度が向上している。AF-Multimerでの複合体予測は長いGlyリンカーの追加インプットを必要とせず、ユーザーは2つ以上のアミノ酸配列を入力するだけで複合体の予測構造を出力させることができる。AF 2.0からのアルゴリズム上の追加点は主に2つあり、1つは同じ配列からなる多量体を予測する場合(例:ホモ多量体や、タンパク質AとBがそれぞれ2:1の量論比で結合する場合など)には、モデルの訓練時において予測構造と正解構造との差を計算する際に対称性、すなわち同じタンパク質であれば位置を入れ替えても等価であることを考慮するようになったことである。もう1つは、異なるポリペプチド鎖間での結合界面を推定するために、それぞれのアミノ酸配列から生成されたMSAの中で同じ生物種由来の配列をペアリングし、より自然な共進化情報を取得するようにしたことである。これらの追加実装のおかげで、AF-Multimerの予測精度はAF 2.0とリンカーを用いた複合体予測よりも有意に高くなったことが論文中で示されている。

このAF2の驚くべき精度を受けて、HH-Suiteの現在の主開発者であるMilot Mirdita, Martin Steineggerと先述のSergey Ovchinnicovらは、2021年7月20日にGoogleの提供する機械学習の教育・研究用の開発・動作環境である無料のプラットフォームGoogle Colaboratory上で動作するAF2である“ColabFold”を開発した[58]。ColabFoldの特長の1つとして、オリジナルのAF2に比べ全体の計算処理の30倍以上の高速化が挙げられる。特に、MilotとMartinが中心となって開発しているHH-Suiteの後継ソフトウェアMMSeqs2のウェブサーバー版をこのサービスのために転用したことで、AF2の構造予測処理のうち最も時間のかかるMSAの取得にかかる時間を1〜2時間から数分程度まで短縮した点での貢献が大きい。また、先述の複合体予測機能をDeepMindのAF-Multimerに先駆けて搭載したことや、何よりウェブブラウザからGUI操作だけでアミノ酸配列を入力して実行させるだけで予測構造が得られるという大きな利便性もあって、誰もが簡単かつ高速にAF2の重要性を体験できる環境が整備されたことは、BLASTと並んで多くの研究者がタンパク質の構造を前提とした上で機能を議論する時代の到来を予期させるものとなった。

AF2はそのソースコードをApache License 2.0として公開したことも意義が大きい。これは商用利用可能、無償での使用や利用者にこれを用いた特許使用権を認めることも含んでおり、さらに後述される様々な改造版・アップグレード版の再配布を許可している。一方で、学習済みのパラメータファイルについてのみ当初CC-BY-NC 4.0ライセンスと表記されていたため、それを用いて予測された構造は商用利用可能なのか不明瞭であったが、2022年1月20日にパラメータファイルのライセンスがCC BY-4.0に変更され、商用利用可能であることが明確になった。これによって製薬企業による予測構造を用いたStructure-based Drug Designも躍進していくことだろうと予想される。

AF2の単量体と複合体予測の大幅な精度向上を受けて、構造予測問題の逆問題、すなわち望ましい構造を形成するようなアミノ酸配列を予想するという問題の解決への期待も高まってきた。もしその問題が解決できれば、抗原に対する抗体の人工的なデザインや様々なタンパク質の機能制御を行える可能性が大きく高まり、AF2の登場と同程度のパラダイムシフトが訪れることになる。しかし、この問題の解決もAF2の自由なライセンスのおかげでそう遠くない未来かもしれない。この1年でRosettaを用いた人工タンパク質デザインで有名なワシントン大学のDavid Bakerの研究チームを始めとして、ディープラーニングを利用したタンパク質デザインの手法とコードが公開され始めている。1つの興味深い手法はSergeyらの研究グループによって考案されたSMURFアルゴリズム[59]で、これはAF2を含む従来の構造予測手法において、MSA作成処理(AF2のEmbeddingに相当)がディープラーニングの学習から切り離されていることに対して解決しようとする試みである。これはMSA作成において配列のローカルアライメントで有名なSmith-Watermanアルゴリズムがmax関数を使うために微分可能でない動的計画法(dynamic programming; DP)をベースとしているところを微分可能なDP(Differentiable DP)アルゴリズム[60]に置き換えることを応用したSmooth Smith-Watermanアルゴリズムと、これとGREMLIN、AF2のモジュールを結合することでMSAも含めて学習可能にすることを目的としている。これがさらに成熟すれば、MSA作成部分と出力構造の関係性をまとめて学習させられるようになり、ある望ましい構造を取りうる多様なアミノ酸配列を逆に生成させることが可能になると想定される。他の興味深い方法として、任意の主鎖骨格を持つPDBファイルを与えられることができ、任意の位置の(例えば対象タンパク質との結合に重要な)残基を固定しながら多様なアミノ酸配列を生成することができるProteinMPNN[61]が注目されている。

AF2は多くのタンパク質について非常に高い精度の予測を返すことが証明されつつあるが、まだいくつかの課題が残されている。例えばAF2の医療応用としてすぐに想定されるだろう抗体タンパク質について、抗体が抗原と結合するために直接接触する部位は相補性決定領域 (CDR)と呼ばれており、この配列および構造が抗体の性能を決定づけているが、この部位についての天然の類縁配列はデータベース中にも乏しいため、抗体についての構造予測精度はいまだ十分ではない。他の例では、コンフォメーション変化を行うタイプのタンパク質について、現状のAF2はその複数の準安定状態構造のうち1つに偏って予測することが多いため、特にGタンパク質共役受容体 (GPCR)での各準安定状態の構造情報が創薬上重要であることが多いことを考慮すると、この点の改善手法の提案が待ち望まれている。このようにタンパク質の構造予測問題が完全に解決したと言い切るには時期尚早であるが、その一方で、AF2の高精度な予測構造が手軽に利用できるようになったことで生じる次の直接的な関心は、その予測構造に対して強く結合するリガンド、つまりは薬の候補を精度良く設計できる計算手法の開発だろう。現にDeepMindとGoogleの親会社であるAlphabet社は2021年11月にこれを目的とした創薬企業Isomorphic Labsを設立したが、他のアカデミック・民間企業の研究者も同じことを考えているはずである。いずれにせよ、AF2とバイオインフォマティクスが生命科学という古くからの学術分野の発展に大きく寄与し、これらの計算技術の重要性が今後増大していくことは容易に想像されるだろう。そういった意味で、2021年は生命科学の歴史的転換点だったと言える。

References
著者略歴

森脇 由隆
2014年 東京大学 大学院農学生命科学研究科 博士後期課程を修了。博士(農学)。日本学術振興会 特別研究員(PD)を経て、2016年11月より東京大学 大学院農学生命科学研究科 助教。専門はタンパク質構造のバイオインフォマティクス、特にタンパク質内でのQM/MMを用いた反応機構解析。主に植物ホルモンや微生物の二次代謝産物の生合成についての解析を行っている。

 
© 2022 日本バイオインフォマティクス学会

This article is licensed under a Creative Commons [Attribution-NonCommercial-ShareAlike 4.0 International] license.
https://creativecommons.org/licenses/by-nc-sa/4.0/
feedback
Top