AlphaFold×分子動力学シミュレーションによるタンパク質構造状態の効率的探索

大貫 隼; 岡崎 圭一

doi:10.2142/biophys.66.6

Abstract

AlphaFoldは高精度なタンパク質構造予測AI技術として強力であるが，特定の構造状態への予測バイアスが存在する．本総説では分子動力学シミュレーションと組み合わせこの困難を克服する方法を紹介する．この方法は複数構造状態を効率的に探索し，状態間安定性を変化させる変異候補等の有益な情報を提供する．

Translated Abstract

AlphaFold is a revolutionary AI-based approach to predicting protein structures with high accuracy but is limited in its ability to predict conformational heterogeneity. We review our two recent studies integrating AlphaFold with molecular dynamics (MD) simulation for efficient conformational sampling of transporter proteins. We illustrate that AlphaFold gains the ability to sample broad conformational space by introducing uncertainty into multiple sequence alignment. The sampled structures are useful for stating points of MD simulation to observe conformational transition dynamics. We also show that an accelerated MD technique provides AlphaFold with state-shifting mutation sites, which should be helpful for structural studies.

1. はじめに

AI技術は今や我々の私生活から研究活動に至るあらゆる場面に活用されており，2024年のノーベル物理学賞，化学賞がその関連技術に授与されたことは記憶に新しい．生物物理学や構造生物学において特にインパクトが大きかったものは，ノーベル化学賞の受賞対象研究の一つであるAlphaFoldであろう．2020年に発表されたAlphaFold2（AF2）¹⁾はアミノ酸配列から高精度でタンパク質立体構造を予測できることを示し，後継のAlphaFold3（AF3）²⁾では核酸，リガンドとの複合体予測も可能となり，益々注目を集めている．

AlphaFoldでは膨大な数の既知構造とアミノ酸配列の対応関係を学習することで，構造未知のアミノ酸配列に対しても構造予測を可能にしている．考え得る構造空間は広大であるため，多重配列アラインメント（Multiple Sequence Alignment: MSA）から抽出された共進化情報の手も借りて探索空間を絞り，天然構造を効率的に予測する．つまり，AlphaFoldは天然構造を最安定たらしめる物理化学法則を用いず，データ科学に基づき天然構造を予測している．ただし，タンパク質は一般に構造状態を切り替えることで機能を発現，制御するが，AlphaFoldではMSAに起因した探索空間の制限から特定の構造状態のみ予測してしまうバイアスの存在が知られている．

AlphaFoldは高精度かつ高速に構造を予測できるという点で非常に強力である．しかし得られる情報はあくまで静的な構造であり，ダイナミクスの情報を直接得ることは不可能である．つまり，天然構造へのフォールディング過程や，構造状態間の遷移ダイナミクスを知ることはできない．この点で強力なアプローチが分子動力学（Molecular Dynamics: MD）シミュレーションである．MDシミュレーションでは，タンパク質や溶媒を構成する原子間の物理化学相互作用に基づき運動方程式を数値的に解くことで，時間発展，すなわちダイナミクスを観測できる．ただし，一般に取り扱える時間スケールはせいぜいマイクロ秒程度であるため，より長時間で生じる構造遷移を追跡することは困難となる．

2. AlphaFoldとMDシミュレーションの統合

AlphaFoldとMDシミュレーションはそれぞれデータ科学，物理化学と拠り所が異なるため得手不得手がある．そこで筆者らはAF2とMDシミュレーションから得られる情報を相互に活用することで，より効率的なタンパク質の構造状態探索法を追求してきた．ここではトランスポータータンパク質を対象に取り組んできた二つの研究を紹介したい^3),4)．図1Aに示すように，トランスポータータンパク質は基質を輸送するために内開き構造，閉構造，外開き構造の三状態を交互に切り替える（交互アクセスメカニズム）．そのため複数構造状態の探索に適した対象であるとともに，多くのトランスポータータンパク質では上に挙げた構造状態の一部のみ解かれており，未解明構造の予測は基質輸送メカニズムの理解のため有益となる．第3節（図1B）と第4節（図1C）で，AF2とMDシミュレーションの統合的アプローチを用いてトランスポータータンパク質の構造状態を探索した研究を紹介する．

図1　（A）トランスポータータンパク質の交互アクセスメカニズムの概念図．（B, C）AF2とMDシミュレーションの統合による構造状態探索の概念図．第3節で（B）を，第4節で（C）を紹介する．

3. MSAサブサンプリング×MDシミュレーション

AF2の構造予測に生じるバイアスは，前述したようにMSAから抽出された共進化情報が探索する構造空間を制約してしまうためである．そこで，MSAに改変を加えることで複数構造状態を探索するMSAサブサンプリング法⁵⁾が提案された．AF2では入力アミノ酸配列に対し類縁タンパク質からMSAを構築した後，そのアミノ酸配列集団の一部のみ選択（サブサンプリング）し構造を予測する．MSAサブサンプリング法ではこのとき使用する配列数を減らす（これを“浅い”MSAと呼ぶことがある）．MSAが浅くなるほど，抽出される共進化情報の統計的不確かさが増大し，特定の構造状態へのバイアスが軽減されるのである．

筆者らはMSAサブサンプリングを硝酸／亜硝酸トランスポーターNarKの構造状態探索に用いた³⁾．図2Aに示すように，配列数の多い（深い）MSAの場合には，NarKのアミノ酸配列にAF2を複数回試みても全て内開き構造が予測されてしまう．ここではMSAの深さを固定して100構造を予測している．通常AF2では五つの構造が予測として出力されるが，AF2に利用される乱数を変更することでMSAサブサンプリングによって取得される配列集団が変わり，より多くの構造を予測できる．今回は20通りの乱数の種を用いそれぞれ5構造を予測することで合計100構造を得たが，構造状態としてはいずれも内開きとなってしまったのである．

図2　（A）AF2によるNarK予測構造のゲート距離分布．MSAの深さごとに異なる色付けでプロットした．図中に膜貫通ヘリックスが一部ほどけた予測構造とX線結晶構造解析で決定された構造を示している．両構造ともN末端ドメインを水色，C末端ドメインを橙色，またN末端ドメインのうちAF2予測構造においてヘリックスがほどけた二つの領域をそれぞれ赤色，黄色で色付けしている．（B）閉構造と外開き構造の中間状態から開始したMDシミュレーション．同一構造から開始した四本の異なるMDシミュレーションのトラジェクトリを異なる色で描いた³⁾．

一方でMSAを（最小16個まで）浅くしていくと，内開き構造のみならず閉構造や外開き構造も予測されるようになる．NarKは内開き構造と閉構造のみが実験的に既知であり，AF2によって未解明の外開き構造も予測できることが示された．このようにMSAサブサンプリングは複数構造状態の探索を可能にするが，極端に浅いMSAでは信頼度の低い構造も予測される危険性があり，例えば膜貫通ヘリックスがほどけた構造（図2A）が時折予測されてしまう．

図2Aを見ると，浅いMSAを利用したAF2は広い構造空間を探索しているが，その分布は各構造状態周囲にクラスター化しているというよりも，状態間にまたがるように分散していることがわかる．そうであれば，AF2の予測構造の中には安定状態のみならずその間の遷移状態付近の構造も含まれているのではないだろうか？　そこで閉構造と外開き構造の中間にあるAF2予測構造をピックアップして，そこからMDシミュレーションを行い，構造緩和ダイナミクスを観測した．すると選んだAF2予測構造のうちいくつかの構造では，確かに遷移状態付近であるような振る舞いを示した（図2B）．すなわち，同一構造から開始した複数回のMDシミュレーションのうち一部は外開き構造へ，また別の一部は閉構造への緩和を示したのである．

MDシミュレーションで問題となる点がエネルギー障壁越えであり，計算可能な時間スケールの間のほとんどを安定点に留まってしまい，興味のある構造遷移ダイナミクスを十分観測できないことが多い．これを克服する方法の一つが遷移パスサンプリング法^6),7)であり，この方法では遷移状態付近からMDシミュレーションを多数実施することで，遷移経路やダイナミクスを効率的に観測する．ただこの方法にも遷移状態付近の構造をどのように用意するかという問題点があり，今回の研究はAF2の予測構造を遷移パスサンプリング法に利用できる可能性を提示した．

4. accelerated MDシミュレーション×AF2変異導入

MSAサブサンプリング法では，MSAに含まれる共進化情報全体にランダムノイズを加えているが，もし事前に予測バイアスの原因となる重要なアミノ酸残基を特定できれば，そこを狙い撃ちした摂動を与えることで予測バイアスを解消できるのではないだろうか．そこでここでは，MDシミュレーションによって重要アミノ酸残基を特定し，そこに変異を導入した影響をAF2で調査した研究を紹介したい⁴⁾．

ここではシュウ酸トランスポーターOxlTを対象とした．OxlTはNarKと同じく交互アクセスメカニズムを利用してシュウ酸とその分解物であるギ酸の輸送を行う．岡山大学の山下敦子教授（現所属：大阪大学蛋白質研究所）のグループが実施したX線結晶構造解析，および著者らのグループのMDシミュレーションによって，OxlTの外開き構造，閉構造およびそれらの間の構造遷移メカニズムが明らかとなった⁸⁾．しかし残る内開き構造は未解明のままであり，OxlTの基質輸送メカニズムの理解を阻んでいた．

未解明の内開き構造を探索するため，エネルギー障壁越えを加速するaccelerated MD（aMD）法^9),10)を用いることとした．aMD法では図3Aに示すように，人為的な正値のエネルギー（ブーストポテンシャル）を相互作用エネルギーに加えることで，安定状態のエネルギーを底上げし障壁越えを加速する．aMDの出発構造として今回選んだ閉構造から興味のある内開き構造への遷移には，細胞質側の基質通過ゲートを形成するドメイン間の相互作用，およびシュウ酸－OxlT間の相互作用が障壁となっていると考えられるため，これらの相互作用をブーストポテンシャルにより弱めた．その結果，通常のMDシミュレーションでは見られなかった内開き構造への遷移が観測できた（図3B）．得られた内開き構造を閉構造と比較すると，良く保存された酸性残基（Asp78, Asp280）のドメイン間コンタクトが切断されており，内開き構造への遷移に重要なアミノ酸残基の候補が特定された．

図3　（A）accelerated MD法の概念図．（B）MDシミュレーションによるOxlTのゲート距離分布．灰色の丸は通常のMD法，緑色の丸はaMD法で得られたデータ．（C）AF2による野生型（黒丸）およびD280L変異型（青丸）のOxlT予測構造のゲート距離分布．（D）OxlT残基ペアの二種類のMSAに基づく共進化スコアの比較⁴⁾．

aMDシミュレーションによって得た重要アミノ酸残基の知見を強化するため，つづいてAF2による構造予測を実施した．OxlTのアミノ酸配列に対し構造予測を行うと（前節と同じく100構造をAF2によって予測した．MSAの深さは1024とした），図3Cに示すように外開き構造しか得られなかった．これは前節でのNarKでのAF2構造予測と同じく，MSAに含まれる共進化情報に起因したバイアスと考えられる．そこで，ここではaMDシミュレーションによって特定した重要アミノ酸候補Asp280に変異を導入し構造予測を再度試みた．するとAF2は部分的に内開き構造も予測できるようになり，予測バイアスが軽減されることが明らかとなった（図3C）．

MSAに含まれる共進化情報を定量化するため，MSAに対しダイレクト・カップリング解析（Direct Coupling Analysis: DCA）¹¹⁾を実施した．AF2では類似配列探索法であるJackHMMerとHHblitsを利用してMSAを構築する¹⁾．このMSAと，AF2の高速化版であるColabFold¹²⁾で利用されるMMseqs2由来のMSAについてDCAを実施した．図3Dには，横軸にJackHMMer/HHblits由来MSA，縦軸にMMseqs2由来MSAの共進化スコアを残基ペアごとにプロットしている．DCAのスコアは正に大きいほど強い共進化傾向を持つことを意味する．この結果から，残基ペアD280-G140はJackHMMer/HHblits由来MSAにおいて強い共進化傾向を持つことがわかる．そのために，野生型配列はこのペアが接近した外開き構造を予測し，かつそこに変異を導入することで共進化情報が乱れ内開き構造も予測できたと解釈できる．加えて，興味深いことにこの残基ペアはMMseqs2由来MSAだと共進化傾向が弱いこともわかる．実際，MMseqs2由来MSAを用いて構造予測を行うと，野生型OxlT配列であっても外開き構造のみならず内開き構造を予測できることがわかった．このように類似配列探索法によって共進化傾向が異なる場合があり，それ故に構造予測結果が異なることがある．

本研究から，MDシミュレーションによって構造遷移に鍵となるアミノ酸残基ペア候補を特定し，その中から共進化傾向が強いものを選んで変異を導入すれば，ピンポイントで共進化情報を乱して構造予測バイアスを改善できることがわかった（MDシミュレーションによる構造サンプリングは，前節で紹介したMSAサブサンプリング法を利用したAF2による構造サンプリングでも代用できる可能性がある）．この方法では単に複数構造状態を探索できるのみならず，状態間の相対的安定性を変化させるアミノ酸変異候補を特定でき，将来的な実験に有益な情報になると期待される．

5. おわりに

本稿ではAF2とMDシミュレーションを組み合わせることでタンパク質の構造状態を効率的に探索する方法を紹介した．昨年登場したAF3ではリガンド等との複合体構造も対象となり，結合位置と構造の同時予測が可能となった．しかしリガンド結合で構造状態変化を示すリガーゼの構造予測において，リガンド有無に関わらず同一構造状態をAF3は予測することが報告されており，バイアスは依然として存在しているようである²⁾．本稿で紹介したMSAサブサンプリング等がAF3にも応用できるかどうかは今後の課題である．

また，AlphaFoldに限らずAI技術をMDシミュレーションに融合させるアプローチは近年盛んに行われている．例えば，遷移パスサンプリング法等で得られる構造遷移情報から反応座標を推定する方法^13),14)，またMDシミュレーションから得られる構造アンサンブルを学習させ同等のアンサンブルをニューラルネットワークにより生成する方法（Boltzmann generator）¹⁵⁾など，多様な切り口でAI技術は活用されている．従来の計算科学アプローチでは太刀打ちできなかった大規模で複雑な生命現象に対し，AI × MDシミュレーションは有望な武器の一つになると期待される．

謝辞

本稿で紹介した内容は，岡山大学の山下敦子教授（現所属：大阪大学蛋白質研究所）を始めとする共同研究者からのご助力のもと得られた成果であり，この場を借りて感謝申し上げます．また，自然科学研究機構計算科学研究センターの計算資源を用いて研究を行いました（23-IMS-C201, 24-IMS-C198）．

文献

Biographies

大貫　隼（おおぬき　じゅん）

分子科学研究所助教

岡崎圭一（おかざき　けいいち）

分子科学研究所准教授

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）