生物物理
Online ISSN : 1347-4219
Print ISSN : 0582-4052
ISSN-L : 0582-4052
解説
AlphaFoldによる蛋白質立体構造予測から機能予測へ
富井 健太郎
著者情報
ジャーナル フリー HTML
電子付録

2024 年 64 巻 1 号 p. 5-11

詳細
Abstract

大量の蛋白質配列・構造データに基づく深層学習モデルであるAlphaFoldによって,多くの蛋白質の高精度な構造予測モデルが利用可能となっている.本稿では,AlphaFold/AlphaFold-Multimerを用いた蛋白質構造/複合体構造予測の背景や効果,利用の際の注意点などについて概説する.

Translated Abstract

AlphaFold which builds in deep learning-based methods based on large amounts of protein data allows us highly accurate structure prediction/modeling for most proteins. AlphaFold models of proteins can be useful for diverse applications such as predictions of intrinsically disordered regions, modeling of structures based on cryo-EM maps and ligand binding site predictions. Here, we introduce and review the backgrounds, effects and caveats of protein structure/complex structure prediction using AlphaFold/AlphaFold-Multimer.

1.  はじめに

近年,核酸や蛋白質などの生体分子に関するデータの急速な蓄積と深層学習モデルの発展があいまって,第一原理計算とは対照的な,既知情報に基づく経験的蛋白質立体構造予測手法の一つの極致とも言えるAlphaFoldが開発,公開され1),関連分野に多大な影響を及ぼしている.本稿では,AlphaFoldの登場に至るまでの背景と,AlphaFoldによる蛋白質立体構造/複合体構造予測の有効範囲や応用例などについて紹介する.

2節では,現在の経験的蛋白質立体構造予測における,Multiple Sequence Alignment(MSA)の重要性と利用方法について,類似蛋白質検索と残基間コンタクト予測の両面から解説する.3節では,それらがAlphaFoldでいかに統合されて行くか,そのあらましを中心に紹介する(図S1).4節では,AlphaFold登場の場となったCritical Assessment of protein Structure Prediction(CASP)での蛋白質立体構造予測の結果や複合体構造予測などへの展開について紹介する.5節では,AlphaFoldによる予測構造モデルの利用と注意点などについて概説する.なお,4節で述べる経緯から,しばしばAlphaFold2と称されるが,開発者の表記に倣い,本稿ではAlphaFoldと記載する.

2.  蛋白質立体構造予測とMSA

現在の経験的な蛋白質立体構造予測法にとって,予測対象蛋白質の類縁あるいは類似蛋白質の情報は大変重要である.その重要性について,類縁あるいは類似蛋白質検索と残基間コンタクト予測の両面から紹介する.これらは,AlphaFoldの入力情報を理解する上でも重要である.

水溶性球状蛋白質や膜蛋白質を中心とする,これまでに蓄積された立体構造の比較と分類の結果から,いわゆる「新規」構造発見の割合は相当低下しており,現存する蛋白質のかなりの部分は,既知立体構造と類似性を有すると推測されている.このため,経験的な蛋白質立体構造予測では,予測対象蛋白質と既知構造との類似性を何らかの方法で同定することが重要な課題である.現在,こうした類似性検索の方法として,MSAを基に計算されるプロファイル(profile)を用いたプロファイル-プロファイルアライメント(以降プロファイル比較と表記)が最も有力である2)

プロファイルは本来,核酸や蛋白質などの配列モチーフの表記法の一つである位置特異的スコア行列Position-Specific Scoring Matrix(PSSM)に,位置特異的な挿入/欠失に関する情報を追加して,拡張したものである3).蛋白質の場合,複数の類縁/類似アミノ酸配列から成るMSAの各残基位置におけるアミノ酸の観測頻度を反映して計算され,蛋白質の機能や進化的情報を反映していると考えられる.非常に有名なアミノ酸配列類似性検索法Position-Specific Iterated BLAST(PSI-BLAST)4)においてPSSMは,問い合わせ配列に対する多数のペアワイズアラインメントの結果を積みあげることで構築されるMSAから計算される.このためMSA構築法を改善することで,プロファイルの質を向上させることが期待される.万を超える数の類縁蛋白質のアミノ酸配列が利用可能であることも稀ではない現在,われわれがMSAの改善5),6)に用いたMAFFT7)や,われわれが提案したアミノ酸置換行列MIQS8)を搭載し,AlphaFoldの入力MSAの一部の計算を担うFAMSA9)などの手法が,高速かつ高精度のMSAの計算を可能にし,MSAを基に計算されるプロファイルの質の向上に貢献した.

PSI-BLASTなどプロファイルを問い合わせとして用いる配列データベース検索が主流であったのに対して,Rychlewski等は,遠縁蛋白質検索法強化の趣旨で,対象蛋白質についてのプロファイルを問い合わせとして,構造既知蛋白質のプロファイル群に対して類似性を検索するプロファイル比較を提唱し,蛋白質立体構造予測に活用した10).通常のペアワイズ配列アラインメントでは,比較する二つの配列の任意のアミノ酸残基ペア(i, j)の類似度スコアとして,アミノ酸置換行列で定義されたスコアsijが用いられるが,プロファイル比較では,この類似度スコアに代わり,任意のプロファイルカラムペアの類似度を何らかの形式で定義する.この定義により検索能やアライメント精度に影響が及ぶため,AlphaFoldの入力を計算するHHsearchあるいはHHblits11)やわれわれのFORTE2),12)など複数の手法が提唱されてきた.また深層学習の新規フレームワークを用いた先駆的手法も提案された13).こうしたプロファイル比較法の登場により,通常のPSI-BLASTなどでも困難な遠縁関係の同定や,アラインメント精度の向上が達成された.そして,既知立体構造を鋳型構造として利用する,ホモロジーモデリングあるいは比較モデリングで立体構造予測可能な範囲を押し広げたのである.

経験的立体構造予測におけるMSA利用のもう一つの大きな潮流は,残基間コンタクト予測への応用である.ほとんどの蛋白質は分子進化の過程で,立体構造の概形が保存されている.その過程をより限られた視点,即ち,分子内部(あるいは分子間)で近接する残基ペアで考えると,例えば,側鎖の大小あるいは電荷の正負などについて補償的な変異が起きていると考えられた14).このような明瞭な例ばかりとは限らないが,MSAは,分子内あるいは分子間における残基ペアの近接性を反映していると考えられる.このため,MSAからの近接残基ペアに関する情報抽出法,即ちコンタクト予測法の開発が進められた.こうした抽出法およびMSA構築法の洗練と利用可能な配列データの増加もあり,コンタクト予測の精度は向上してきた.われわれは,当時類例のなかった,MSA自体をそのまま深層学習モデルの入力として用いることで,MSAに含まれる配列本数が少ない場合の影響を軽減するとともに,配列本数が非常に多い場合の適切な重み付けを可能とするコンタクト(および二次構造,溶媒露出度)予測用深層学習モデルDeepECAを開発した15)

さらに,アミノ酸配列内の残基ペアとプロファイル/MSAにおける残基(位置)間コンタクトとの対応を考慮しつつ,アミノ酸配列をMSAに対してアライメント可能な統計モデルが金城により提案されている16),17).この手法を基にMSAの反復改善を実施できれば,AlphaFoldと同様,コンタクト予測に適したMSAの改善を達成できるのかもしれない.また論文中で議論されているように,昨今陸続と発表される蛋白質配列生成モデルの基盤としての活用も可能である17)

次節で紹介するように,AlphaFoldは,プロファイル比較により同定された鋳型構造の情報を利用したコンタクト予測の一種とみなせる部分を含んでいる.実際,CASP14におけるコンタクト予測部門の上位を占めるのは,AlphaFold同様,MSAと鋳型構造や予測構造などの情報を利用した深層学習モデルである18).こうした手法は,従来のコンタクト予測法の発展型のようにも思える.ただし,予測精度のMSAに含まれる有効配列本数依存性や,系統的な削除により各構成要素の重要性を確認するアブレーションスタディ(ablation study)における,ベースラインモデルからそれ程劣化のない鋳型構造情報なしのAlphaFoldの予測精度1)などを考えると,従来法の延長というよりはむしろ,深層学習モデルがMSAのパターンを「記憶」している面もあるのかもしれない.

3.  鋳型構造情報とコンタクト予測の結合

AlphaFoldは,大別すると前後二つのモジュールから構成される19),20)図S1).その前半部分では,前節で紹介した経験的立体構造予測の二つの大きな潮流,即ち,プロファイル比較により同定された鋳型構造の情報とコンタクト予測の統合により,最終的な出力である予測構造モデルの計算などに必要な情報の改善が行われる.後半部分では,前半で改善された情報に基づき,独自の方法で原子座標が計算される.以下に,各々のモジュールの概要を紹介する.

AlphaFoldの前半部分のEvoformerは,類似配列検索法の一種であるjackhmmer21)とHHblitsによって得られたアミノ酸配列のMSAに基づく残基間コンタクト予測と,HHsearchを用いた検索により同定された鋳型構造の立体構造情報を組み合わせ,最終的な予測精度の向上に必要な情報(後述するペア表現など)を改善するための深層学習モデルであり,Transformerと呼ばれる深層学習モデルアーキテクチャが基になっている.

Transformerは,後述する(self-)attention22)を用いた,入力配列の残基(自然言語の場合は単語)や位置の間の関係を捉えるのに適した深層学習モデルである.Transformer登場以前に多用されていた,入力を逐次処理するrecurrent neural networks(RNNs)のような深層学習モデルと比べ,attention計算の並列処理を可能にしたことにより,学習時間が短縮された.ただし,再帰や畳み込みに依存しないTransformerには,入力配列の残基位置(自然言語の場合は語順)の概念がない.このため,各残基の入力配列内での相対位置あるいは絶対位置の情報が別途追加される.Transformerの登場によって大規模データでの学習が可能となり,自然言語処理分野で有名なBidirectional Encoder Representations from Transformers(BERT)やGenerative Pre-trained Transformer(GPT)などの開発への道が拓かれた.

Transformerでは,単語ij間の関連がattention weight a ij h として計算される.

  
a ij h = softmaxj 1 c q i h k j h

ここで q i h および k j h は,単語の埋め込ま(embedさ)れたベクトルと学習された重み行列の積のベクトルであり,それぞれqueryおよびkeyと呼ばれる.Transformerでは,ijの関連を見出すのに適した重み行列が学習される.cは定数,softmaxは成分の和を1にするための正規化関数である.なおhは複数の観点からペア(i, j)についてのattention weightを計算するための(multi-headと呼ばれる同様の計算)数であり,AlphaFoldのEvoformerではh = 8である.

Transformerの応用形態であるEvoformerでは,MSA情報の各行(配列に相当)の任意の残基iとその配列の他の全残基jとの間について,MSA情報と鋳型構造情報の双方に基づきattention weightが計算され,残基間の関連(ここでは立体構造上での近接性に相当)が推定される.Evoformerにおける残基ペア(i, j)に対するattention weight a ij h の計算では,次式のように鋳型構造情報に由来する残基ペア(i, j)についてのweight b ij h が加算される.

  
a ij h = softmax j 1c q i h k j h + b ij h

ここで b ij h は,残基ペア(i, j)の鋳型構造での近接頻度に応じて与えられる.これにより,Evoformerは,予測対象蛋白質と類似構造を有すると考えられる鋳型構造での残基間近接情報に依存しながら,「ペア表現」と呼ばれる残基間コンタクト予測の結果を改善して行くのである.改善のため,上記以外にもさまざまな計算がEvoformerの各ブロックでなされ,次のブロックの入力となる.そして,全48ブロックでの計算を通じ,さらに改善されて行くのである.

AlphaFoldの後半部分(structure module)では,Evoformerで改善されたペア表現などに基づき,予測対象蛋白質の三次元座標が計算される.計算の初期段階では,対象蛋白質を構成する各アミノ酸残基は,主鎖の三原子N,Cα,Cを頂点とした三角形として各々独立に取り扱われる.初期値として,各アミノ酸残基は原点に配置されており,structure moduleで計算される並進ベクトルと回転行列に従い,各アミノ酸残基は独立に予測位置に配置される.その後この配置を基に,アミノ酸原子間の平均結合長,結合角,そして鋳型構造から得られる側鎖の回転角などの情報を用いて,水素を除く全原子の三次元座標値が計算される.

このような手順が複数回反復(recycling)されることで,一層改善された予測構造モデルが得られるとされている.また,予測構造モデル中の立体障害を除去するために,最終的にエネルギー最小化を行っている(が,これによる構造変化は多くの場合,僅かなようである).

AlphaFoldの損失関数は,大きく分けると構造予測に関する項と配列予測に関する項の二種類の項から成る.

構造予測に関する項では,複数の観点からみた「正解」構造と予測構造モデルとの誤差が損失関数に反映されており,その最小化を通してAlphaFoldの学習がなされる.それらの中でも,特徴的かつ利用者にも便利な項は,pLDDTと呼ばれる残基単位の予測信頼度に関する項である.CASPの予測構造モデル評価用指標の一つとしてlocal Distance Difference Test(lDDT)という値が提唱されており23),pLDDTはこれを模したものである.lDDTは,「正解」構造中の任意の残基のCα原子を中心とする半径Ro(既定値は15 Å)の球に含まれる残基間距離のセットが,予測構造モデルでどの程度再現されているかを評価するために開発されたスコアである.構造モデル全体あるいは各残基の双方を対象として計算可能な値であり,[0, 1](完全に一致する場合が1)で規格化されている.

AlphaFoldでは,「正解」構造と予測構造モデルでのCα原子間距離の差に基づき,予測構造モデルの各残基のlDDTの予測値と真のlDDTの値との差を反映するように損失関数が設定されている.このlDDTの予測値が,利用者がよく目にする,残基単位の予測信頼度pLDDTである.AlphaFoldにより計算された予測構造モデルは,各残基pLDDTの平均値である構造全体のpLDDTによってランク付けされる.

配列予測に関する項では,BERTのmasked language model(MLM)24)と同様のタスクが課されている.これは,MSA内のアミノ酸の一部を隠(マスク)し,それらの推定結果を交差エントロピーで評価するものである.蛋白質のアミノ酸配列の特徴を学習することで,MSAの有効配列本数が少ない場合の予測精度の低下をある程度抑制する効果があるとされている1)

4.  構造予測実験CASP

蛋白質立体構造予測手法の評価と発展のための場として,CASPと呼ばれる国際的な立体構造予測実験が1994年から隔年で開催されている.CASPでは真の意味での予測実験を強く意識し,実験開始時点で立体構造未解明かつ構造解析実験が進行中で,予測結果が出揃った段階で三次元座標が決定されそうな蛋白質(CASP15からは核酸も)の配列が開示される.予測者はこの配列情報を基に,立体構造や残基間コンタクトあるいは基質結合部位など開催毎に定められたカテゴリーの予測結果を提出する.実験により決定された構造と予測結果を基に,評価者が各カテゴリーの予測結果を総括する.このスタイルが定着し,第一回目のCASP1では,参加グループ数,予測標的蛋白質数ともに30余だったものが,近年ではともに100を超えるような活発な研究活動の一つとなっている.

2020年に開催されたCASP14で,特に蛋白質ドメイン単位での予測で,絶対的(予測構造モデルと正解構造との差)および相対的(グループ間での予測精度の差)な両評価の観点から見て注目すべき成果が得られた.CASPで用いられるGDT_TSと呼ばれる絶対的な評価指標で,AlphaFoldを用いたDeepMindのグループが,88.01(蛋白質ドメイン数=92)の平均値を記録したのである25).ここで,

GDT_TS = (Pd(=1) + Pd(=2) + Pd(=4) + Pd(=8))/4

であり,Pdは正解構造と予測構造モデルを比較した際に閾値d(単位Å)以内に存在する残基(Cα)ペア数の割合である.比較には,双方の短い断片構造の類似性に基づく反復改善による発見的な立体構造アラインメント法が用いられる.GDT_TS = 100が完全な予測に相当するので,この値はかなりの高精度の予測構造モデルがほとんどの予測標的で達成されたことを示すものであり,難問の多く含まれるCASPでは例外的な値であった.また相対的評価指標の一つであるZスコアの合計値でも,DeepMindのグループが244.0であるのに対し,次点のグループは90.8であった.AlphaFoldによる予測構造モデルでは,従来の既存手法では困難であった,蛋白質のコア部分(ここでは主に相同蛋白質で保存されている共通構造部分)以外の領域の予測精度が格段に向上していた.また“template-free modeling”と呼ばれる当該時点のPDBに登録されている構造との類似性があまりみられない「新規」構造とみなせるような予測標的のいくつか,例えばT1037(ウイルスのRNAポリメラーゼ;正解構造のPDB ID: 6VR4)に対しても,第一予測構造モデルでGDT_TS = 87.62という高い予測精度を示していた.さらに,予測標的蛋白質のX線結晶構造解析において,AlphaFoldによる予測構造モデルを用いた分子置換が有効であった例も報告された26)

ただしこうした結果は,既定のAlphaFoldを実行する自動的操作のみで得られたものばかりではない.例えば,複数の状態の鋳型構造が得られるような場合,一方の状態の鋳型構造のみを入力として用い(意図的に b ij h にバイアスを加え)たり,MSAの有効配列本数が極端に少ない場合に,既定以外の複数の配列データベース検索結果を含めるなど,予測標的によってはやや例外的な手動操作も含め達成されたものである.また,計算されたpLDDTは実際の予測結果とよく相関し,予測構造モデル改善の必要性の有無の判断に有効だったようである25)

なおDeepMindは,蛋白質立体構造予測分野で著名な英国のDavid T. Jonesを水先案内人的な立場で迎え,2018年に開催されたCASP13にA7Dというグループ名で参加しており,その際,現在のAlphaFoldとは異なるアーキテクチャの深層学習モデルを含む構造予測システム(ただし,当時よりその名称はAlphaFold)を開発,利用していた27).これと区別するため,彼等は,AlphaFold2というグループ名でCASP14に参加した.

2022年に開催されたCASP15では,ほとんどのグループが何らかの形でAlphaFoldおよび後述するAlphaFold-Multimer28)を利用した予測を行っていたようである.そのため,CASP14のように単一のグループが突出した結果を示すことはなかった.ただし,日本のPEZYFoldingsの結果によれば,AlphaFoldの入力MSAの改善5)は一定の効果がみられたようである29).また最近,システインリッチ蛋白質の一種でも,入力MSAの改善が構造予測精度の顕著な向上につながった例が報告されている30).これは,自作したMSAなどが利用可能となっているColabFold31)を用いて得られた結果である.

CASP14後,AlphaFoldより大きな学習データセットを使用した類似深層学習モデルや,MSAの代わりに大量のアミノ酸配列情報で事前学習された蛋白質言語モデルを利用した深層学習モデルなどが開発された.しかしそうした手法を含め,絶対的な評価の観点からは,CASP14でのDeepMindのグループを超える予測精度を示すグループは存在しなかった.この理由として,標的蛋白質の予測難易度の相違も評価者により検討されたが,それのみが確たる理由ではないようである.

一方複合体構造予測に関しては,2014年に開催されたCASP11から,それまで個別に開催されていたCritical Assessment of PRediction of Interactions(CAPRI)と呼ばれる国際的な予測実験との連携強化が図られ,これまで以上に焦点があてられている.当初はドッキングシミュレーションを利用したアプローチが有効であると考えられ(そもそもCAPRI communitywide experiment on the comparative evaluation of protein-protein docking for structure predictionと謳われ)ており,ドッキングされた構造モデルのランキングも主要テーマの一つであった.しかしCAPRI-CASP12で,評価者によりEASY,MEDIUM,HARDの三段階に分類された予測標的のうちEASYのみならず,MEDIUMやHARDとされた複合体のいくつかについても,われわれのプロファイル比較法FORTEを用いた鋳型構造検索とモデリングによる予測が有効であった5).これは,複合体構造は進化の過程で,蛋白質単量体あるいはドメインの立体構造ほど保存されないのではないかというそれまでの考えとは対照的に,蛋白質複合体構造もまた多くの場合,保存的な傾向があることを示唆するものであった.元々FORTEは,蛋白質単量体やドメインの立体構造予測を念頭に開発された手法であるが,相同な蛋白質で複数の形態の複合体構造が観測されている場合でも,適切な鋳型複合体構造の選択にも適していることが明らかになった5),6).昨今決定された複合体構造の増大に伴い,複合体構造予測精度は,鋳型に適した複合体構造の有無に大きく依存することが明らかとなっている32)

2021年にDeepMindが発表した,AlphaFoldを複数鎖の予測に拡張したAlphaFold-Multimerは,入力MSAにおいて,複合体構造を形成すると想定される蛋白質鎖の関係を明示的に考慮したり,複合体界面の予測精度向上のために学習方法や損失関数の一部が変更された深層学習モデルである.近年構造決定された4,433個の複合体から成るデータセットを用いたDeepMindのベンチマークの結果によると,ギャップやリンカーによってつながれた複数鎖の擬似的な単量体配列を入力として利用するAlphaFold-GapやAlphaFold-Linker,あるいはドッキング手法との組み合わせによる結果などと比較して,予測精度の向上が報告されている.ただし,AlphaFold-Multimerのような手法は二量体あるいは三量体などに有効であるものの,それ以上は(特にヘテロ多量体では)適用困難な場合が多い.よりサブユニット数の大きな多量体に対しては,モンテカルロ木探索を利用して予測構造モデルを組み合わせ,複合体構造モデルを構築しようとする手法も提案されている33)

5.  AlphaFoldによる予測構造モデルの利用

AlphaFoldによる予測構造モデルは,AlphaFold DBから利用可能である34).DeepMindは,EMBL-EBIとともに,2023年6月の時点で,UniProtに登録されているTrEMBLを含めた約2億蛋白質の予測構造モデルをAlphaFold DBでリリースしている.ここでは,AlphaFoldによる予測構造モデル利用の際の注意点について例示する.まず図1に,Klebsiella aerogenesのdephospho-CoA kinaseの予測構造モデルと,99%の同一残基率のPDB中の(UniProtの配列から二残基置換し,N-末端にHisタグを付加した)構造を示す.この蛋白質のAlphaFoldによる予測構造モデルは,図1右に示すようにほとんどの領域でpLDDT > 90である.しかし,図1左で示すように,一部に実測構造とのずれがみられる.

図1

Klebsiella aerogenesのdephospho-CoA kinase(UniProtのAccession番号:A0A0H3FR62)のAlphaFoldによる予測結果.左)予測構造モデル(シアン)とPDB中の結晶構造8sboA(金),8sboB(マゼンタ)および8sbnA(薄緑)の重ね合わせ.右)予測構造モデルの各残基位置での信頼度を示した図.信頼度の色別表示の詳細については図2の下部を参照のこと.

前述のようにAlphaFoldでは,推定された残基ペアの近接性に基づき,蛋白質の三次元座標が計算される.このため,残基ペア近接性の情報が密になるドメイン単位での予測精度は十分な場合が多いが,図1の例のように,近接性の情報が多くないドメイン間の相対配置などに関しては,予測信頼度が高い場合でも,実際の構造と乖離することがある.おそらく同様の理由で,非常に長いα-helixなどについても,実際の構造と乖離することがあるので,残基ペア近接性の情報が少ない場合の予測結果については注意を要する.

図2に,予測構造モデルのもう一例を示す.対象は,構造も機能も未解明のキイロショウジョウバエの蛋白質の一つである.この予測構造モデルでは,中央に描かれている予測信頼度の高いα-helix部分を除く,予測信頼度の低い伸展したような領域は,天然変性領域である可能性が示唆される.なぜなら,AlphaFoldの予測構造モデルの各残基のpLDDTの値や相対溶媒露出表面積の20残基ウインドウの平均値を利用した天然変性領域予測が,従来の予測手法に比べ,有効であることが,DisProt(予測結果や実験的根拠と機能に関連する注釈が収載されたデータベース)のサブセットをベンチマークとして用いた検証によって示されているからである35).最近では,異なる指標を組み合わせた予測法も提案されている.

図2

キイロショウジョウバエのuncharacterized protein, isoform G(UniProtのAccession番号:A0A021WW64)のAlphaFoldによる予測結果.

最後に,構造モデル利用の際の注意点をもう一つ述べる.最近ではAlphaFoldの予測構造モデルを,低温電子顕微鏡のデータに対するfittingの初期構造として用いることも少なくないと思われる.ただし,全体的には高信頼度の構造モデルであって,密度マップに対する適合が良好なものであっても,局所部位においてはあまり適合しない場合もある.密度マップに基づく,より正確な全体構造構築の際には,全体的なあてはまりを示す指標のみならず,予測構造モデルの局所的な適合性の確認も欠かせない6)

6.  今後と展望

蛋白質の配列と立体構造に関する大量データの蓄積とその有効活用法が確立された意義は非常に大きい.その適用範囲の広さと予測精度から,CASPのpresidentであるJohn Moultの言のように,蛋白質単量体の構造予測は実際的な面では「終わった」ようにも映る.ただ,以下のような三つの展開があるのではないかと考えている.

第一は,「新規」構造の積極的解明である.その割合が随分減少したとは言え,「新規」構造はいまだ発見/解析され続けている.一方,AlphaFoldのような手法の登場により,既知構造との類似性を有すると考えられる蛋白質は,実際に立体構造解析を行う前に容易に見分けられる時代となった.また,洗練されたX線結晶構造解析やNMRによる立体構造解析技術,そして近年の低温電子顕微鏡による立体構造解析の発達という強力な手段をわれわれは有している.現在未解明の「新規」構造をもつ蛋白質の多くは,(ある程度必然的に)立体構造解析が困難なものであることも予期されるが,このようなお膳立てが整った今,研究コミュニティや分野を超えた範囲の協力により,蛋白質の立体構造空間の全容解明に向けた研究をより一層加速可能な時機が到来したと捉えられるかもしれない.

次に,予測構造モデルの精密化についてである.前述のようにAlphaFoldの発表初期において,その予測構造モデルがX線結晶構造解析での分子置換法に応用され,いくつかの例で実際の構造解析を促進したことが報告された36),37).しかしその後,必ずしも全ての予測構造モデルが同等の精度を有する訳ではないことも明らかになった38).前節で紹介したドメインレベルでの配向に加え,現状では,主鎖および側鎖両方の観点からみて,PDBに登録されている(状態に相当するような一定程度の精度が担保されている)構造とAlphaFold DBで公開されている予測構造モデルとの何らかの乖離が多くの例でみられるものと思われる.今後,こうした天然状態に近い大量の予測構造モデルの存在を前提とした,蛋白質立体構造解析の加速や機能推定の精度向上などにとって(どういった方向性を目指すかも含め)予測構造モデルの精密化が課題として浮かび上がってくるかもしれない.

第三は,蛋白質立体構造予測の問題そのものである.AlphaFoldの適用可能な範囲や割合は大変大きいものの,やはり経験的予測の一種であり,実際CASP15でも,全長に対する鋳型構造情報の乏しくかつ入力MSAの有効配列数の少ないいくつかの予測標的蛋白質を中心に,概形の予測すらままならないような例が存在した.例えばT1131は全長173残基のHormaphis cornuの蛋白質であるが,提出された全予測構造モデルのGDT_TSの最大値は27.48(概形の合致が期待される値の目安である40未満)であった.このように,蛋白質単量体の立体構造予測は完全に終わってしまった訳ではない.この分野に身を置く者の一人として,経験的な蛋白質立体構造予測法のさらなる発展に留まらず,蛋白質立体構造「計算」法の確立に少しでも近づきたいものである.

文献
Biographies

富井健太郎(とみい けんたろう)

産業技術総合研究所人工知能研究センター研究チーム長

 
© 2024 by THE BIOPHYSICAL SOCIETY OF JAPAN
feedback
Top