Seibutsu Butsuri
Online ISSN : 1347-4219
Print ISSN : 0582-4052
ISSN-L : 0582-4052
Theoretical and experimental techniques
Extraction of Protein Dynamics Hidden in Cryo-EM Maps Using Deep Learning
Shigeyuki MATSUMOTOKei TERAYAMAYasushi OKUNO
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2022 Volume 62 Issue 3 Pages 193-197

Details
Abstract

タンパク質機能を理解する上で,その動的振る舞いを知ることは極めて重要である.我々は近年発展目覚ましいクライオ電子顕微鏡単粒子解析によって得られる3次元密度マップから,深層学習技術を利用して直接的に運動性の情報を抽出する手法DEFMapを開発した.本稿ではその概説と構造生物学への展開について紹介する.

1.  はじめに

生命現象はタンパク質などの生体高分子の働きの上に成り立っている.そのため生命現象の分子メカニズムを知る上でタンパク質の機能を正しく理解することは重要である.タンパク質の機能はその立体構造とその運動性によって精密に制御されている.このことから,タンパク質分子の高分解能立体構造解析すなわち構造生物学が生命科学の中核の1つとなっている.

高分解能の立体構造を決定するための主な実験的手法として,核磁気共鳴(NMR)法,X線結晶構造解析,低温電子顕微鏡(cryo-EM)単粒子解析が挙げられる.このうち特にcryo-EMは,近年のハードウェアと解析技術の発展1)により,100 kDa以下の比較的小さな生体高分子のみならず巨大かつ複雑な生体高分子の立体構造を次々と解明することで今日の分子生物学の発展に多大な貢献を果たしている.一方,分子の運動性解析はNMR法や水素―重水素交換質量分析法(HDX-MS)などの実験的手法に加え分子動力学(MD)計算によって取り組まれてきた.これらの手法は生体高分子の動的振る舞いを高分解能で定量的に計測可能であるが,それらの手法を巨大かつ複雑な生体高分子に適用するためには原理的に多くの困難が伴う.

cryo-EM単粒子解析では,透過型電子顕微鏡による試料撮影で得られる様々な方位からの大量の生体高分子画像(単粒子画像)を収集し,再構成することで3次元密度マップを得る(図1).撮影試料はタンパク質溶液を瞬間的に凍結して準備するため,得られる単粒子画像中には溶液中で見られる様々な構造状態が含まれる.すなわち,それらの単粒子画像によって再構成された3次元密度マップの中には溶液中での動的振る舞いに関わる情報が潜んでいるといえる.これを反映して,タンパク質分子内部で疎水性コアを形成しているような「固い」領域の密度マップは構造の均一性によりはっきりと見え(=強度が強い),分子表面に露出しているループ領域などの「柔軟な」領域の密度マップは様々な構造状態が平均化されてしまうためぼやけている(=強度が弱い)(図1).このように密度マップ強度と運動性の間に関連性があるということは経験的に知られている一方,密度マップ強度は運動性以外にも試料調製過程での局所的な変性やグリッド上での分子の向きの偏りなどの複数の要因による影響を受けるため,単純な密度マップ強度からの運動性推定は不可能であった.

図1

運動性に依存した構造多様性に由来する3次元密度マップ強度の違いの様子.「固い」分子内部領域(マゼンタの四角で拡大図を示す)でははっきりとした密度マップが得られている.一方,「柔軟な」ループ領域(シアンの四角で拡大図を示す)ではところどころ密度マップが途切れている.

本稿では,近年発展著しい深層学習技術を用いて,cryo-EMの3次元密度マップ強度情報から直接的にそこに潜む運動性情報を抽出する手法Dynamics Extraction From cryo-em Map(DEFMap)2)について紹介すると共にその展望と現時点での課題について議論する.

2.  3次元畳み込みニューラルネットワーク(3D-CNN)

DEFMapでは深層学習技術の1つである3次元畳み込みニューラルネットワーク(3D-CNN)を利用することで3次元密度マップからの運動性情報の抽出を実現している.畳み込みニューラルネットワークモデルは予測に重要な入力データの局所的な特徴・パターンを捉えることが可能で,画像認識や音声認識において高い性能を示すことが知られている.これを3次元に拡張した3D-CNNモデルでは空間的特徴の学習が可能であり,コンピュータ断層撮影や核磁気共鳴イメージングなどにおける3次元オブジェクトの検出やクラス分類に広く利用されている3)

3.  学習データセットの生成と学習

DEFMapではcryo-EMの3次元密度マップの強度パターンとその運動性情報との関係性を学習している.これを実現するためには,密度マップと運動性情報が紐づいた大規模なデータセット(学習データ)が必要である.日々決定されているcryo-EMの3次元密度マップ及びそこから得られる原子モデルはデータベースElectron Microscopy Data Bank(EMDB)並びにProtein Data Bank(PDB)に蓄積されている.一方,それらの生体高分子の運動性に関するデータベースは存在せず,また実験的に計測することは非現実的なため,MD計算を用いて運動性情報を取得することとした.

学習対象のタンパク質として,①比較的簡便にMD計算を実施することのできるタンパク質であること②4.5 Åよりも良い分解能で3次元密度マップが決定されていることの2点を指標に選抜を行い,結果的に25種類のタンパク質を学習に用いた.

3次元密度マップについて,効率的な学習を行うための前処理としてマップの全体分解能が5 Åになるようにlow-pass filterを適用した.DEFMapでは局所の運動性予測を実現するというアイデアの下,low-pass filter適用後の各3次元密度マップから重原子位置を中心に局所の密度マップデータを1辺15 Åの立方体で切り出し,入力データ(sub-voxel)とした(図2a上段).3次元密度マップ中の重原子位置は,密度マップから構築された原子モデルの(x, y, z)座標から最も近い位置のグリッドとした.sub-voxelを学習データにすることにより大量の局所密度マップ環境を学習データとして準備することが可能であり,これらのデータを用いて学習したモデルについて多様な外部データへの汎用性が期待できる.最終的に本研究では4,249,300個のsub-voxelを学習データとして使用した.一方,運動性情報としては30 nsecのMD計算結果から算出した重原子のroot-mean square fluctuationの常用対数値log10(RMSF)を用いた(図2a下段).MD計算の入力初期座標はそれぞれの3次元密度マップから構築された原子モデルから準備し,MDエンジンとしてGROMACS 2016.54)を利用した.以上の手順で準備した各sub-voxel(説明変数)と運動性情報(目的変数)との関係性を図2bに示すニューラルネットワークモデルで学習した.

図2

DEFMapにおける学習.(a)学習データセットの準備.(b)DEFMapにおける深層学習モデル構成の概要.

4.  運動性予測の性能検証

25種類の学習タンパク質のうち1つをテストデータとし,残り24種を教師データとした交差検証(Leave-one-out cross validation法)によりDEFMapの運動性予測性能を評価した.その結果,運動性との相関係数rの平均(±分散)は0.665(±0.124)であった.一方,密度マップ強度そのものと運動性との相関係数rは0.459(±0.179)であった.このことは,深層学習モデルを用いることで密度マップ強度から目的とする空間的パターンの抽出に成功していることを示している.図3aには交差検証の評価のうちの一例を示している.

図3

外部データを用いたDEFMapの予測性能評価.(a)MD計算で得た運動性と密度マップ強度(左)並びにDEFMapでの予測結果(右)との関係.それぞれの値は残基ごとの平均値を標準化して用いている.(b)外部データに対する運動性予測結果の立体構造上へのマッピング(左)とMD計算で決定した運動性との比較(右).文献2の図を改変.

得られたモデルの外部データ(学習に利用していない密度マップ)に対する性能を評価するため,EMDB及びPDBより新たにEMD-4241/6FE85),EMD-7113/6BLY6),EMD-20308/6PCV7)の3種類のcryo-EMデータを取得し,DEFMapによる予測結果とMD計算で得た運動性を比較したところ,相関係数rがそれぞれ0.727,0.748,0.711と良い一致が見られた.図3bにはそのうちEMD-20308/6PCVにおける比較結果,並びに予測結果を立体構造上へマッピングした様子を示しており,DEFMapが分子内部と溶媒露出表面の運動性の違いなど立体構造上の一般的な特徴を良く捉えている様子が観察できる.

DEFMapはMD計算で得られる運動性と密度マップ強度との関係性を学習したモデルである.このことから,予測結果を実験的に測定された運動性と比較することは重要である.EMD-20308/6PCVについて,予測結果をHDX-MS法で決定された運動性と比較したところ,両者の間では良い相関が見られていた(r = 0.743,図4).この比較結果はDEFMapの予測結果により運動性の議論が可能なことを支持するものである.

図4

実験データを用いたDEFMapの予測性能評価.予測結果はHDX-MSで検出されたペプチドフラグメントの結果に従ってフラグメントごとの平均を計算し,標準化して比較を行っている.左にはそれぞれのペプチドフラグメントの相関を,右にはそれらを立体構造上にマッピングした様子を示している(高い運動性と予想された領域を紫色傾向で示す).文献2の図を改変.

5.  構造生物学的研究への貢献

では密度マップから直接的に運動性を予測できたとして,構造生物学的研究においてどのような貢献を期待できるのであろうか.本章では筆者らが実際にDEFMapで見出した分子メカニズム解析研究の指針となり得る興味深い知見について紹介する.

一般的にリガンドの相互作用に伴ってその結合部位は安定化され,運動性が低下する.DNAメチル化導入と関連するmeristem silencing 3(DMS3)–RNA-directed DNA methylation 1(RDM1)複合体を対象に,defective RNA-directed DNA methylation 1(DRD1)ペプチドが結合した3次元密度マップ(EMD-20081,holo状態)と非結合型の3次元密度マップ(EMD-20080,apo状態)8)それぞれについて予測した運動性を比較してみると,リガンド結合に伴い,DRD1ペプチド認識に重要な残基を中心とした結合部位の運動性の低下を検出することができた(図5-①).興味深いことにDRD1ペプチド結合に伴う運動性抑制は,その結合部位から遠くに位置しているRDM1-DMS3相互作用界面(図5-②)並びにDMS3のヒンジ領域(図5-③)においても観察された.このことはペプチド結合の影響が分子内を伝わり,複合体形成並びにDMS3の安定化を誘導していることを示唆している.特筆すべき点として,密度マップに基づいて構築されたapo状態及びholo状態の原子モデルではこれらの領域における明確な差が認められなかった(図5-②, ③).このことは,これらの運動性の変調は通常の構造解析過程では見過ごされてしまう恐れがあることを示しており,DEFMapの構造生物学的研究における有用性を強調するものである.

図5

リガンド結合に伴う運動性変化の可視化.原子モデルはholo状態の予測結果からapo状態の予測結果を引いた値で色分けされており,青傾向の領域がリガンド結合に伴って運動性が抑制されたことを示している.またリガンドは緑色で示している.リガンド結合部位の拡大図(①)ではリガンド認識に重要な残基をスティック表示で示している.またRDM1-DMS1相互作用界面(②)並びにDMS1ヒンジ領域の拡大図(③)には運動性の抑制が予測された残基をスティック表示で示している.文献2の図を改変.

DEFMapによる運動性解析の優位性として,1.入力が密度マップであるため分子量による制限を受けない,2.原子モデルを必要としないという2点が挙げられる.例えば通常の実験的計測技術で巨大なウイルス粒子の運動性を解析する場合,シグナルの重なりなどその巨大さに由来する様々な障壁が存在する.またMD計算の実施には高い計算コストを必要とする上,高分解能の原子モデルが得られていない場合には信頼性のある結果を得ることは難しい.DEFMapでの予測においてはこれらの困難とは無縁であるため,3次元密度マップが得られていれば簡便に運動性解析を行うことができる.図6には実際にcryo-EM単粒子解析によって得られた巨大ウイルス粒子の3次元密度マップ9)に対する運動性予測を実施した例を示している.

図6

ジカ熱ウイルス粒子の3次元密度マップ(EMD-8139)を用いた運動性予測.文献2の図を改変.

6.  DEFMapの現モデルの限界と高度化

密度マップの全体分解能に対する予測性能の依存性を検証したところ,分解能7 Å付近を境に低分解能側で予測性能が低下することを確認している.これは低分解能密度マップには予測に必要なだけの情報量が不足していることを示唆している.Cryo-EMで得られる密度マップでは局所分解能が分子内で幅広く異なることから,局所分解能が極端に悪い領域についてはDEFMapの予測結果を慎重に吟味する必要がある.

また機械学習技術における別の限界として,学習データに入っていない入力データに対する予測が難しい点が挙げられる.DEFMapの現時点でのモデルではMD計算で運動性データを生成する都合上,比較的分子量の小さい可溶性タンパク質を学習データとして用いた.そのため膜タンパク質の膜貫通領域などの特殊な環境下の密度マップデータは学習データセットに入っていない.このことから,現時点で界面活性剤などの特殊な密度マップを含むsub-voxelに対する高い予測精度は期待できない.

前者の限界についてはcold field emission guns9)などの測定技術並びに画像解析技術の向上に伴って日々分解能が改善されている現状を鑑みると,近い将来解消されることが十分に期待できる.一方後者については今後の学習データの拡充による解決が期待できる.DEFMapにおける学習データ拡大のボトルネックは大規模なMD計算である.莫大なscalabilityを持つ「富岳」の公開を始めとしたスーパーコンピューター利用環境の整備がこの点の解決を強力に後押ししてくれると考えられる.

7.  まとめ

DEFMapはcryo-EM単粒子解析法によって得られる3次元密度マップ全体を直接解釈することで分子全体の運動性の可視化を可能にする.これにより通常の実験的アプローチでは解析に困難が伴うような巨大かつ複雑な生体高分子の運動性の解析を簡便に実施できる.本稿で紹介したようなリガンド結合に伴う遠位の運動性変化の検出などを通じて,DEFMapの利用がcryo-EM単粒子解析に基づく分子メカニズム解明を加速することを期待している.またDEFMapではMD計算をビッグデータ生成に利用することで実験データと深層学習技術の融合的な研究を実現した.本研究がこの新たな融合的研究アプローチの発展において先駆け的研究になると考えている.

最後に,DEFMapのコードはgithub上で公開しており(https://github.com/clinfo/DEFMap),深層学習用PythonライブラリTensorFlow,Keras,分子解析用PythonライブラリHTMD,cryo-EM解析用ブログラムEMAN2(いずれも無償で学術利用可能)が使える環境を準備することで誰でも利用可能である.

文献
Biographies

松本篤幸(まつもと しげゆき)

京都大学大学院医学研究科特定准教授

寺山 慧(てらやま けい)

横浜市立大学大学院生命医科学研究科准教授

奥野恭史(おくの やすし)

京都大学大学院医学研究科教授

 
© 2022 by THE BIOPHYSICAL SOCIETY OF JAPAN
feedback
Top