2025 Volume 65 Issue 4 Pages 201-205
タンパク質は生体内で様々な機能を果たすが,その機能を理解するためにはタンパク質の三次元立体構造を理解することが必要不可欠である.三次元Zernike記述子(3DZD)を用いると,タンパク質の表面形状を回転及び並進不変な形でコンパクトに記述することができる.このため3DZDはタンパク質の構造を比較したり,形状に基づいた検索を行ったりするために広く用いられている.この総説では,3DZDの持つ特性とタンパク質構造分析への様々な応用について説明する.

Proteins perform various functions in living organisms, and understanding their 3D structures is essential to understanding their functions. The 3D Zernike descriptor (3DZD) provides a compact, rotationally and translationally invariant description of protein surface shapes. These features are desirable when applying 3DZD to describe the shape of proteins. Therefore, 3DZD is widely used for comparing protein structures and for shape-based searches. In this review, we describe the properties of 3DZD and their various applications in protein structure analysis.
タンパク質は生命の最も基本的な構成要素であり,化学反応を触媒したり,細胞の形態を維持したりするなど,その機能は重要かつ多岐に渡る.タンパク質の機能はその立体構造に大きく依存しているため,タンパク質の形状についての理解を深めることは,その機能を知るために必要不可欠である.特に,タンパク質の機能の多くはその表面で発現するため,表面の形状に注目してタンパク質の構造を特徴づけることは意義がある.このような構造的特徴に基づいて体系的にタンパク質を整理することによって,共通点や相違点を明確にすることは,機能についての理解を深めるために重要である.
本総説では,タンパク質の立体構造を表す表現の一つとして,3D Zernike(ゼルニケ)記述子(3DZD)について紹介する.また,3DZDを使ったタンパク質の構造分類について紹介し,さらに3DZDを応用したアプリケーションを紹介する.
3DZDは,物体の3次元表面形状を表現するために使用される回転不変のモーメントベース記述子である1).3DZDは球面調和関数を拡張したものであり,動径関数を組み込むことで,球面調和関数よりも多様な3次元形状を正確に表現することができる.直感的には3DZDは,信号処理において信号を周波数成分の線型結合に分解するフーリエ変換と似たものであると捉えることもできる.
3DZDは,次のようにして求められる.はじめに,3Dゼルニケモーメントを求める.表面形状が極座標表現(r, θ, φ)を用いて表せる時,3Dゼルニケ多項式
ここで,
関数f(x)によってモデル化された3Dオブジェクトの3Dゼルニケモーメントは,前の3Dゼルニケ多項式で展開された時の係数として次のように定義される.
3DZDは,このモーメントのノルム
タンパク質はたくさんのアミノ酸が一本に繋がった分子であり,その立体構造は構成する原子のユークリッド座標の集合として表現される.このため,タンパク質の3DZDを計算するためには,分子表面をまずボクセル化(格子状に分割)して,各ボクセルは表面か否かのバイナリとして表される.このように離散化された表面を用いることで,前の節で紹介した式に従って3DZDを計算することができる.図1には,いくつかのタンパク質を使ってこの手順を示した.異なる形状のタンパク質からは異なる3DZDが得られ,3DZDはユークリッド距離や相関係数などを利用して比較することができる.

タンパク質の3DZDの比較.タンパク質の立体構造(虹色)から計算された表面形状(灰色)は,3DZDに変換できる.3DZDのベクトルはユークリッド距離を用いて比較することができる(図中のdist.).似たタンパク質(ここではHemoglobinとMyoglobin)から得られた3DZD間の距離は,異なるタンパク質と比較して近くなる.
3DZDは,タンパク質の立体構造を表現する際,特に表面形状を球面調和関数で展開する場合と比較して,優れた特徴を持つ.最大の利点は,球や星形形状ではない複雑な表面形状を扱うことができることである.タンパク質の表面は複雑に入り組んだ形状をしている傾向にあるが,3DZDはこのような形状を適切に表現することができる.また,3DZDは回転や並進に対して不変であるという特徴も持つ.つまり,同じタンパク質を空間内でどのように回転させても,同一の3DZD表現が得られる.球面調和関数では回転によって異なる表現が得られるため,回転不変性を持たせるためには,対象となる形状の姿勢を事前に正規化する必要がある.しかし,多くのタンパク質は特定の方向性を持たないか,形状の方向的特徴が少ないため,姿勢の正規化はしばしば困難である.一方で,球面調和関数の係数の大きさだけを使えば回転不変な特徴量が得られるが,元の形状を再現するための情報が一部失われるため,元の構造の違いを十分に反映することができない.この他にも,3DZDは球面調和関数と比べて,よりコンパクトな表現を可能にし,同じ次数で展開した場合にベクトルの長さを短くできる.これにより,事前に計算した3DZDを効率的に保存することができる.また,3DZDの比較ではユークリッド距離や相関係数を利用できるため,立体形状を直接比較する場合に比べ,計算コストを大幅に削減できる.
タンパク質の立体構造を比較する手法には,3DZD以外にも様々な方法が存在する.一般的に,二つの構造をアラインメントして,二乗平均平方根誤差(RMSD)やTM-score3)を計算する方法がよく用いられる.アラインメントフリーの手法としては,DaliLite4)が残基間の距離パターンを比較し,二つのタンパク質構造を評価できる.これらの手法と比較しても,3DZDによる比較は非常に高速であり,大量の構造データの比較に適している.特に近年,実験構造データの増加に加え,AlphaFoldなどの機械学習手法から得られる大量の構造データを効率的に比較する必要性が高まっているため,3DZDはさらに注目を集めている.
タンパク質の立体構造は実験的に解き明かされ,その結果得られた構造はProtein Data Bank(PDB)データベースに登録・公開されている5).現在,20万件を超える大量の構造が利用可能であるが,このような多くのデータから得られる知識を俯瞰し体系的に理解するためには,それらを適切に分類し,その類似点と相違点を浮き彫りにすることが必要である.
このため,我々が発表したHanらの論文6)では,3DZDを利用して立体構造が既知のタンパク質の単鎖および複合体の形状のマッピングを行った.この研究では,まずPDBから解像度などの条件を満たす構造のうち,各チェーン単位でアミノ酸配列同士のペアごとの配列類似性が25%以下になるように6,841個のタンパク質を収集した.これらには,実際には複合体を形成するタンパク質も含まれる.また,実際に機能する単位でもタンパク質を分類するために,生物学的単位が複合体を構成している5,326個のタンパク質複合体を,同様に互いに25%以下の配列類似性になるように選択した.次に,これらのタンパク質それぞれについてその表面形状の3DZDを計算し,各タンパク質について121次元の3DZDを得た.これらの3DZDを用いて主成分分析(PCA)を行い,最初の三つの主成分を使って各タンパク質を3次元空間に射影した.
得られた単鎖タンパク質形状の空間マッピングを図2に示す.単鎖タンパク質形状では,離心率が小さい球状のタンパク質(図2では青色の点)はほとんど存在しなかった.タンパク質の表面構造を特徴づける要因を調べるため,PCAのそれぞれの軸がどのような要因と関連しているかを調査した.第一主成分であるPC1の軸に沿って,青から赤までの異なる離心率のタンパク質が分布していることが観察できることから,タンパク質形状の離心率が単鎖タンパク質を形状的に特徴づける主な要因であることがわかる.また,PC2とPC3についても調査した結果,これらはタンパク質が持つドメインの数やタンパク質鎖の長さと相関していることが明らかとなった.

単鎖タンパク質の3D形状空間.各点はタンパク質を表す.色はタンパク質の離心率を表し,0(青色)に近いほど球形に近い形状を持つ.(A, B)単鎖タンパク質の3D形状空間.AとBは異なる角度から見た同じ図である.(C, D)は,この空間上でのタンパク質形状の具体例を示している.(図は文献6のFig. 1より引用.Creative Commons Licenseによってライセンスされた.)
次に,タンパク質複合体の形状空間マッピングを単鎖タンパク質の場合と同じように実行した.また,この結果のマッピングを単鎖タンパク質のマッピングと重ね合わせて比較することによって,その違いについて考察した.図3の重ね合わせた分布を観察すると,タンパク質複合体(青)は,単鎖タンパク質(赤)より広範な空間に分布していることが観察できる.これは,タンパク質複合体が単鎖タンパク質よりも多様な形状をとることができることを示している.タンパク質形状の多様性はその機能の多様性に関連するため,タンパク質が複合体を形成することで実現可能な構造と機能の範囲が広がることを示唆している.

単鎖タンパク質とタンパク質複合体の形状空間の重ね合わせ.赤は単鎖タンパク質,青はタンパク質複合体の構造を表す.(A)から(C)はそれぞれ別の角度からこの形状空間を表示している.(C)では,単鎖と複合体タンパク質の具体例を示す.(図は文献6のFig. 7より引用.Creative Commons Licenseによってライセンスされた.)
我々は,3DZDの類似性に基づいてタンパク質の立体構造を比較し,高速なリアルタイム検索ができる3D-Surferを開発した7).PDB IDかPDBファイルを入力として,PDBで公開されている立体構造全体か,AlphaFold8)によって予測された立体構造のデータベースであるAlphaFold Database9)の一部である約100万の立体構造から検索できる.3D-Surferは,タンパク質のフォールド分類ができるニューラルネットワークを用いることで,3DZDの単純な比較より高精度なデータベース検索を実現している10).検索は,3DZDの単純比較を用いると数秒,機械学習を利用した検索は1分程度であり,立体構造類似性検索ができるソフトウェアでは最速である.3D-Surferによる検索は,我々の“Webサーバー”から利用できる.
同様の検索は,電子顕微鏡の3次元マップを検索するためにも利用することができる.私たちの開発したEM-Surfer11)は,電顕のマップのデータベースであるEMDB12)のIDまたは3次元マップを入力として,EMDBのマップを3DZDの類似性を使って高速に検索することができる.
タンパク質の相互作用部位などの相補的な分子表面は裏表を考えなければ類似した表面の形状を持つため,3DZDを用いて相補性を定量的に比べることができる.このことを用い,我々のタンパク質のドッキングのソフトウェアであるLZerD13)では,ドッキングするタンパク質の表面を直径6 Åの球によって切り出したパッチで表現し,二つのタンパク質から相補的なパッチの組を探すことでドッキング構造の構築を行う(図4A).3DZDが回転不変であるという性質から,実際に重ね合わせて相補性を調べる必要がなく,高速かつ網羅的に表面形状を比較できる.LZerDは,ドッキング予測手法を比較するコンテストのCAPRIで,非常に優れた性能を示している14).LZerDは,Webサーバーとしても提供されていて,誰でも利用することができる15).図4B, Cでは,WebサーバーでのLZerDドッキングの例を示した.

LZerDによるタンパク質ドッキング.(A)LZerDによるパッチの比較の概念図.(B, C)ドッキングの例.(B)黄色の点は上位500構造の重心を示す.(C)最上位のドッキング構造.
Pocket-Surfer16)とPatch-Surfer17)は,結合ポケットを既知の結合ポケットと3DZDを用いて比較することで,そのポケットに合う低分子を探索することができる.二つの手法は形状を3DZDとして表現して比較を行うが,Pocket-Surferでは結合ポケットの全体形状を扱うのに対して,Patch-Surferでは結合ポケットを小さなパッチの集合として扱う(図5A).パッチ表現を使うと,ポケットの全体形状が異なっていても,ポケット内の対応する領域を識別できる.Patch-Surferは,PDBから選択されたポケットと低分子の非冗長なデータセットを用いたベンチマークでは,他の手法と比較して高い精度を示した.

低分子結合ポケットの検索と低分子リガンド検索.(A)Pocket-SurferとPatch-Surferの概念図.ポケットを3DZDとして記述する方法が異なる.(B)3DZDによる形状の似た低分子の検索の例.
PL-PatchSurfer18),19)では,ポケットとリガンドの両方の局所表面パッチの相補性を使って,ポケットに結合するリガンドを検索し順位付けする.表面表現は立体配座のわずかな違いに対する感度が低いため,3DZDと組み合わせて高速に検索することができる.
低分子リガンド同士の形状比較や検索も,3DZDを用いることで高速かつ精度よく行うことができる20)(図5B).このようなタンパク質の結合ポケットやそこに結合する低分子の探索は,創薬におけるバーチャルスクリーニングのために利用することができる.
本総説では,まずタンパク質の立体構造を3DZDで表現する方法と,3DZDを用いた比較からタンパク質の立体構造を空間マッピングし分類した研究について紹介した.また,3DZDを使った応用として,タンパク質の立体構造や電子密度マップを高速に比較し検索するアプリケーションを紹介した.これらのアプリケーションは,ウェブサーバーや実行可能パッケージとして利用可能であり,我々の研究室Webページの“ソフトウェアリスト”に一覧されている.
3DZDは,タンパク質の立体構造などの表面形状の特徴を効率的な実数値ベクトルで表すための優れた手法の一つである.3DZDは回転不変であるという性質があるため,二つの表面を正しい方向に回転させたり,実際に位置合わせをしたりすることなく,表面形状を比較してその類似性や相補性を見出すことができる.実験的に解決された立体構造の蓄積に加えて,AlphaFoldをはじめとした最先端の予測手法が与える大量の立体構造が持つ可能性を最大限に活用するためには,これらの構造の全体ないしは部分を高速かつ正確に比較・分類するための手法が必要不可欠である.3DZDはそのための手法の一つとして,今後さらに活用されることが期待される.