JSBi Bioinformatics Review
Online ISSN : 2435-7022
Review Article
タンパク質の言語モデル
山口 秀輝 齋藤 裕
著者情報
ジャーナル オープンアクセス HTML

2023 年 4 巻 1 号 p. 52-67

詳細
Abstract

ここ数年、深層学習に基づく生物配列の解析技術が台頭してきている。本稿は、その中でも特に急速に発達しているタンパク質の言語モデル(protein language models: pLMs)に関する総説である。アカデミアはもとより巨大IT企業も研究参画するこの技術は、基盤となるモデル開発がすでに一段落し、多様な生物学的・工学的タスクに対する応用結果が続々と報告されるフェーズに入っている。本稿では、最近のpLMsで中心的に用いられるTransformerの内部機構や学習方法、pLMsが獲得した生物学的情報の解析といった基本的な事項の解説から始め、配列解析、タンパク質機能予測・機能改変、立体構造予測、そして大規模言語モデルによる機能性タンパク質配列生成まで、実験的検証事例を交え幅広いテーマを紹介する。最後に、今後のpLMs研究が迎えうる展開について、萌芽的結果を踏まえつつ考察したい。

1.はじめに

タンパク質は、分子レベルでの生命機能の主たる担い手である。同時に、医学・生物学における主要なツールでもあり、また、近年勃興するバイオものづくりにおけるキーコンポーネントでもある。したがって、その機能理解もしくは機能改変・設計はあらゆる分野にまたがる重要な研究課題である。配列データからの情報抽出は、これらの目的に向けた有力なアプローチであり続けてきた。相同配列検索、配列に導入された変異の病原性判定、多重配列アラインメント(multiple sequence alignment: MSA)を用いた系統関係の推定、立体構造予測、活性部位予測など、その実例は枚挙に暇がない。

ここ10年ほどの自然言語処理(natural language processing: NLP)に代表される機械学習分野の進展と計算機の高機能化により、シークエンシング技術開発の恩恵を受け蓄積されてきた膨大な配列データから効率的に情報抽出するための基盤が整ってきた。図1は、タンパク質と機械学習に言及した論文数の推移を示したものである。ここから読み取れるように、機械学習を用いたタンパク質研究の中でも言語モデル関連は急速に発展しており、特に2019年を境に加速度的に増加していることがわかる。

図1:タンパク質の言語モデルに言及する論文数の推移

横軸に年度、縦軸に各年の論文数を示した。バーの色は検索クエリ(protein “machine learning”もしくはprotein “language model”)に対応する。論文数はGoogle Scholarによる。アクセス日:2023年2月25日

それでは、タンパク質の言語モデル(protein language models: pLMs)とは何か?データ駆動的に挙動が定まるこのモデルの動作原理はなにか?抽出できる情報の特徴や、実際に関心のあるタスクに対する性能はどの程度なのか?本稿は、これらの疑問に答える試みである。本稿の構成は以下の通りである。まず基礎編となる前半では、ニューラルネットワークとして実装されるpLMsのアーキテクチャ、学習方法、学習された特徴について解説する。特に、最近のpLMsで中心的に使われるTransformerの内部機構(アテンション)および学習原理を簡潔に理解できるようにする。後半では、配列解析、タンパク質機能予測・改変、立体構造予測、そして配列生成についてレビューし、pLMsがすでに広範な応用範囲を持ち、実験的検証によりその実力がある程度明らかになりつつあることを見る。

なお、紙面の都合上割愛したテーマもある。二次構造[1, 2, 3]、翻訳後修飾[4, 5]、金属イオン等の結合サイト[6, 7]、活性部位[8]、細胞内局在[9, 10]、Gene Ontology[11, 12, 13, 14, 15]、シグナルペプチド[16]、膜貫通領域[17]などの機能アノテーション関連、配列最適化[18, 19]、抗体・免疫関連[20, 21, 22, 23, 24, 25, 26, 27, 28, 29]については触れられなかったが、これらのテーマに対してもpLMsを応用した研究が活発に行われている点には言及しておきたい。また、可能な限り査読済み論文を引用したが、分野の発展が著しく速い状況を鑑みプレプリントも適宜参照した。関心を持たれた読者は原典の査読状況などにも留意されたい。

2.pLMsの基礎

2.1 言語モデルによるタンパク質表現の獲得

言語モデルは、大規模データからデータ自体の特徴を学習する表現学習技術[30]の1つである。もともとは自然言語(日本語や英語などの我々が日常的に使用している言葉)文を構成する各単語の特徴表現および文の生成確率関数を学習する統計モデルとして提案された[31]。本稿のテーマであるpLMsは、大雑把に言えば、タンパク質の一次配列を「文」、各アミノ酸を「単語」とみなして学習された言語モデルのことである。pLMsをそのアーキテクチャにより大別すると、word2vec[32, 33, 34]、畳み込みニューラルネットワーク(convolutional neural network: CNN)[35, 36]、再帰型ニューラルネットワーク(recurrent NN: RNN)[37, 38, 39, 40]、およびTransformerに基づくものが存在する。ここでは主に、最近のpLMsにおいて中心的に利用されるTransformerベースのモデルについて説明する。割愛したモデルは例えば[41, 42]でレビューされているので適宜参照されたい。

2.1.1 Transformerのアーキテクチャ

Transformer[43]は、2017年にVaswaniらによって機械翻訳に関連して提案されたニューラルネットワークである。従来、標準的であったCNNおよびRNNとは異なり、自己注意(self-attention)機構により離れたトークン間の依存性を取り入れられる点に特徴がある。ここで、言語モデルで処理される「単語」(処理単位)はトークンと呼ばれ、本稿ではタンパク質配列に含まれる各アミノ酸に対応する。Transformerを用いる場合、図2aに示したように、①各アミノ酸固有のベクトル表現(token embedding)、②self-attentionを介した文脈情報の取り込み、③残基位置ごとのアミノ酸出現確率計算、の3層構造で情報処理をする。Transformerにより最終的に得られたアミノ酸表現は埋め込み(embedding)と呼ばれ、②の出力に対応する。原論文[43]では、埋め込みを得るためのencoderおよび配列生成のためのdecoderを結合したアーキテクチャが提案されているが、本項ではpLMsでしばしば用いられるencoder内部でのデータ処理の要点を確認しておこう。

図2:Transformerによるタンパク質配列埋め込みとアテンションマップ計算

(a)Transformerのデータフロー。(b)Self-attentionとは、アミノ酸を表現するベクトル同士の内積行列(を行方向に正規化したもの)である。

タンパク質配列を形式的にsa1 a2aLと書き、aiVi=1, 2, …, L)はアミノ酸を表す文字、Vはアミノ酸全体の集合(=語彙)、Lは配列長を表すとする。まず①では、アミノ酸aiを数値的に処理できるようにベクトル e a i d に変換する。このd次元ベクトル e a i はモデル学習時に調整されるパラメータである。これらをまとめて x L × d と表記しよう。我々が最終的に実現したいことは、アミノ酸の表現であるxが配列s内での文脈をうまく捉えた状態になるようTransformerモデルを学習することである。次にxを multi-head self-attention層に入力する。具体的には、   

self_attention ( x ) = concat ( attn 1 ( x ) , attn 2 ( x ) , , attn H ( x ) ) W (1)
  
attn h ( x ) = softmax ( QK T / d ) V (2)
  
Q = xW h , 1 (3)
  
K = xW h , 2 (4)
  
V = xW h , 3 (5)
  
softmax ( M ) ij = exp ( m ij ) / k exp ( m ik ) , M L × L (6)
なる関数を適用する。ここで W d × d W h , i d × d / H ( i = 1,2,3 ) は学習可能パラメータ、concatは行列(テンソル)の結合操作でありL×d⁄H次元の行列H個を列方向に並べてL×d次元にする。(2)式のattnhが head(h=1, 2, …, H)と呼ばれるアテンション計算の中核である(図2b):入力xは各 head に固有のパラメータWh, iを用いて内積計算され(QKT)、softmax関数によって正規化された後、この行列を重みとして V = xW h , 3 の各行ベクトルが加重平均される。図2bにおけるQueryとKeyが各々QKTに対応する。なお attn h ( x ) L × d / H である。ここで得られた正規化済みの内積行列 ( softmax ( QK T / d ) ) はアミノ酸同士が互いの表現に与える影響度を定量化するものであり、アテンションマップと呼ばれる。Multi-head self-attentionの計算後は、適当な非線形変換を施し、再び(1)式のアテンション計算をする処理を反復する(図2a②)。このようにして、後述する方法によりTransformerの学習時にパラメータが調整されることで、タンパク質配列内でのアミノ酸の相互関係を取り入れた表現が得られることになる。最後に、Transformerの出力である埋め込みベクトルziより、位置iにおけるアミノ酸vの出現確率が次のようにして計算できる(図2a③):   
p i , v = exp ( z i e v T ) / w V exp ( z i e w T ) (7)
ここでewはアミノ酸wのtoken embeddingである。

上記で言及しなかった点として、各アミノ酸の配列内での位置情報の取り込みがある(位置エンコーディング:positional encoding)。Transformerの原論文では三角関数を用いた手法が採用されているが、パラメータを導入し学習対象とする方法もよく用いられている。Token embeddingの直後に実行されるケースが多いものの、self-attention計算時に追加されることもある[44]。位置エンコーディングはそれ自体が重要なテーマであり、様々な方法が提案されている[45]。なお、Transformerアーキテクチャについては非常に多くの派生研究がある[46]がここでは割愛する。また、Transformerを実装レベルで理解したい場合は[47]を参考に手を動かしてみるとよいだろう。

2.1.2 Transformerモデルの教師なし学習:masked language modeling

言語モデルを用いる利点の1つは、その事前学習が教師なしで実行できることである。入力配列自身を教師として学習するため、自己教示学習(self-supervised learning)とも呼ばれる。言語モデルのアーキテクチャにより具体的な手法は異なるが、ここではBERT(bidirectional encoder representations from Transformer)[48]で導入され広く用いられているmasked language modeling(MLM)を解説する。

MLMの概念図を図3に示した。この方法では、まず入力配列の一部のトークンを確率的にマスクする(ここではglycine(G)がマスクされている)。このマスクされた配列をTransformerに入力すると、前項に述べた方法によりマスク位置における各アミノ酸の尤度を計算することができる。そこでMLMでは、すべてのマスク位置Mにおける元のアミノ酸aiに対する負の対数尤度   

L = i M log ( p i , a i ) (8)
を損失関数として最小化する。このようにして、マスクされた残基を周辺残基の情報(=文脈)から推測させ、配列におけるアミノ酸の出現パターンを学習させることができる。

図3:Masked language modelingの概念図

周辺残基の情報を元にマスクされた残基(G)の復元確率を最大化する。ここでは、図2(a)における①から③をまとめてTransformerと表記している。

2.2 代表的なpLMs

冒頭で触れたように、pLMsに言及する論文は急速に増えてきている。ここではその中でも頻繁に利用されるモデルをまとめる。UniRep[39]は、約2,400万配列からなるUniRef[49]を学習データとしたmLSTM[50]に基づくpLMである。UniRepによる埋め込みベクトルはアミノ酸の物理化学的性質を反映するだけでなく、種の分類、変異導入効果予測、タンパク質工学など種々の下流タスクにも応用可能であることが示され、以降のpLMs研究の雛形となった。TAPE[51]は、Transformerに基づく最初のpLMである。二次構造予測、コンタクトマップ予測、相同性検出、変異導入効果に関するベンチマークデータを整備し、各種タスクで良好な性能を示した。この2つの仕事が現れた2019年以降、pLMs研究は劇的に加速していくことになる。ESM(Evolutionary Scale Modeling)[52, 53]は、大規模化されたTransformerベースのpLMsである。ESMに関しては本稿の後半で度々触れる。また、UniRep、TAPE、ESMは単一配列を入力とするモデルだが、MSAを入力とするMSA Transformer[54]も提案されている。ProtTrans[55]は、encoder-decoder型を含む複数のアーキテクチャに基づくpLMsの総称である。特にT5[56]アーキテクチャに基づくProtT5は高性能で、本稿でも後ほど複数の応用例に触れる。

なお、以上のように、大規模なデータで学習され幅広い後続タスクに利用されるモデルは基盤モデル(foundation models)とも呼ばれる[57]。UniRep、ESM1、ProtTransを含む複数のpLMsによる埋め込みベクトル計算はBio Embeddingsライブラリ[58]を用いると簡単に実行できる。

2.3 pLMsが獲得した生物学的情報

2.3.1 アミノ酸の特徴表現

生物配列を機械学習で扱うためには、まずその特徴表現を得ることが必要である。タンパク質の場合、古典的には配列中のアミノ酸の物理化学的・構造的性質を反映したベクトル表現としてAAindex[59]、ST-scale[60]、Z-scale[61]、T-scale[62]、FASGAI[63]、MS-WHIM[64]、ProtFP[65]、VHSE[66]等のいわゆる記述子もしくはMSAに基づくposition-specific scoring matrix(PSSM)[67]などが利用されてきた。これらは、人間が専門知を活かして設計したものである。

一方でpLMsは、その学習過程でアミノ酸の特徴表現をデータそのものから獲得している。UniRep[39]とESM[52]はともに、その埋め込みベクトルがアミノ酸の物理化学的性質を反映していると報告している。具体的には、埋め込みベクトルを主成分分析もしくはt-SNE[68]により2次元に射影すると、アミノ酸の疎水性・極性および芳香環(F、Y、W)に応じたクラスターが観測された。いずれのモデルも学習は教師なしで行われているため、言語モデルタスクによりタンパク質の文脈情報のみからアミノ酸の個別的な性質が獲得されたことになる。なお、PSSMはMSAの残基位置ごとに特徴量計算する一方、pLMsでは残基同士の相互依存性も取り込む点が異なる。

2.3.2 アテンション

Vigらは、Transformer型pLMsのアテンションマップに着目した解析を行った[69]。これによると、タンパク質の立体構造を反映するコンタクトマップ予測、活性部位予測、二次構造予測のそれぞれで、強く関与が認められる特定のheadが存在することが示唆された。また、MSA Transformer[54]は、対称化されたアテンションマップを利用することで、教師なしでコンタクトマップを精度良く予測できることを明らかにした。この事実は、Transformerのアテンションマップが配列内アミノ酸同士の長距離相関を取り入れられることの利点を示唆する。

3.pLMsの応用

3.1 配列解析

配列解析、つまり配列の持つ生物学的意味合いを理解するための基本的なアプローチは、配列同士の比較を行うことである。ここでは、pLMsに基づく新しい方法が、既存のアラインメント手法であるNeedleman-Wunsch(NW)アルゴリズム[70]やSmith-Waterman(SW)アルゴリズム[71, 72]、もしくは隠れマルコフモデル(hidden Markov model: HMM)を用いた手法との関連でどのように位置づけられるか見ていこう。

Rivesらは、配列類似度の低い相同タンパク質(remote homology)を検出するタスクにおいて、ESM-1b埋め込みベクトルを用いた類似度検索を実施し、タンパク質構造を階層的に分類したデータベースSCOP[73]に対する評価実験で、HMMベースの相同性検索アルゴリズムHHblits[74]よりも高精度に実行できることを示した[52]。また、ProtT5埋め込みベクトルを用いた類似度検索法[75]でも同様の結果が得られている。ただし、マルチドメインタンパク質をクエリとした場合にはクエリ配列が長いほど検出精度は下がることが報告されている。ProtT5の埋め込みベクトルを入力とする教師ありアルゴリズムCATHe[76]は、先行するHMMベース手法[77]が検出できなかった相同タンパク質の検出に成功している。

全く別のアプローチとして、配列アラインメントアルゴリズムにpLMsを持ち込む手法も複数提案されている。BeplerとBergerは、Bi-LSTMモデルの埋め込みベクトルを用いて計算したsoft symmetric alignmentと呼ばれるアラインメントの程度を表す量を元に、配列ペアの構造類似度を教師あり学習する方法を開発した[37]。その結果、推論時に構造情報を入力とするTM-align[78]を顕著に上回る相同性検出が実現できたと報告している。

また、NWアルゴリズムもしくはSWアルゴリズムによる配列アラインメントをニューラルネットワークの一部として実行する方法も提案されている。MenschとBlondelは微分可能な動的計画法の定式化を与えることでその端緒を開いた[79]。詳細は割愛するが、動的計画法のスコア行列計算に必要なmax操作をlogsumexp関数log(Σiexp(ai))で置き換え、その微分であるソフトマックス関数exp(ai)⁄Σjexp(aj)を元にトレースバックを確率的に実行するのが要点である。Mortonらは、事前学習済みBi-LSTMモデルの埋め込みベクトルから置換行列およびギャップペナルティを計算し、TM-alignで得られる構造アラインメントを正解とする教師あり手法DeepBLAST[80]を提案した。本モデルは微分可能なNWアルゴリズムを内蔵しているため、最適なアラインメントを実現する置換行列・ギャップペナルティをデータ依存的に学習することが可能である。また、DEDAL(deep embedding and differentiable alignment)[81]は、Transformerと微分可能SWアルゴリズムを組み合わせたローカルアラインメント手法である。学習時にMLM、ペアワイズアラインメントタスク、およびアラインメントスコアを用いた配列ペア間の相同性判別タスクを同時に実行する点と、学習データにPfamシードアラインメント[82]を採用し構造情報を明示的に利用しない点がDeepBLASTと異なる。いずれも、既存手法と比較しアラインメントの品質改善ができたと報告している。

ただし、ここで紹介した手法は統一されたデータ・指標での相互評価がされておらず、相同性の定義もまちまちであるため、実用上どれを用いるべきか検討するには精緻なベンチマークが必要である。また、相同性検索結果の信頼性を評価するためにE-value[83]の計算は極めて重要であるが、この点に言及していない手法も存在することには注意が必要だろう。

さらに、近年のpLMs研究は、言語モデルがMSAに類似した情報を獲得していることを示唆している。生物の系統関係推定(分子系統解析に関しては[84]が詳細に記述している)やタンパク質の機能・立体構造予測においてはMSAが重要な役割を果たすため、この点は注目に値する。例えば、MSAに含まれる2つの配列から各々1つのアミノ酸残基を選択したとき、ESM-1bの埋め込みベクトル類似度を用いると、両者がMSA内でアラインされているか否かの2値分類問題をAUC(area under curve)0.8程度以上の精度で解けることが示されている[52]。また、Huらは、配列ペアの相同性に応じて埋め込みベクトル間距離を調整するタスクを介してファインチューニングしたESM-1bモデルを用い、MSAを高速構成する方法を提案した[85]。こうして構成されたMSAをMSA TransformerもしくはAlphaFold2[86]の配列処理モジュールEvoformerに入力すると、HMMベースのホモロジー検索ツールjackhmmer[87]で得られたMSAと同程度の精度を複数のタスクで達成すると結論している。さらに、HieらはESM-1bで計算される配列ペア間の尤度差を「進化的方向性」と見立て、配列群の進化的関係を表現する有向グラフ推定手法evo-velocityを考案した[88]。

3.2 タンパク質機能予測・機能改変

遺伝子への変異導入がタンパク質機能にもたらす変化を理解し活用することは生物学的・医学的・工学的に重要である。例として、指向性進化に基づくタンパク質工学、つまり進化分子工学は数々の高機能タンパク質を生み出してきたが[89, 90, 91]、その実験には多くの時間と費用を要する。そこで近年、機械学習を積極的に活用した高効率な進化分子工学が急速に発達しており[92, 93, 94, 95, 96]、その中でpLMsが果たす役割が生化学実験により確認されつつある。

3.2.1 変異導入効果予測

タンパク質工学に機械学習を応用する際、初めに必要とされるタスクは変異導入効果の予測(variant effect prediction)である。十分高精度な予測モデルは生化学実験候補を事前にスクリーニングできる、もしくは実験自体を代替できると期待されること、後述する配列探索アルゴリズムにおいて必要なコンポーネントとなること、などが理由である。実験コストの観点では、可能な限り少ない教師データで予測モデルを構築できると都合が良い。そこで、教師なしでの変異導入効果予測(zero-shot予測とも呼ばれる)手法が研究されてきた。従来からの有力手法であるDeepSequence[97]とEVE[98]はともに変分オートエンコーダ(variational autoencoder: VAE)[99]に基づき、改変対象となる天然配列をクエリとして得たMSAを用いてファミリー特異的なモデルを構築する。このとき、学習済みモデルから計算される野生型配列と変異体配列の生成確率比(の対数)、つまり「天然タンパク質らしさ」の差が変異導入効果と正の相関を持つことが経験的に知られている[97, 98]。ところが、改変対象タンパク質に対して常に十分な量のホモログが取得できるわけではないから、ファミリー横断的かつアラインメントなしでの学習が可能なpLMsから抽出された情報を相互補完的に活用する戦略は有効であると考えられる。

TransformerベースpLMsによる教師なし予測性能を系統的に検証したのはRivesおよびMeierらである[52, 100]。UniRef[49]などの大規模配列データで事前学習されたpLMsは、教師データを与えず単一配列を入力する条件下であっても、MSAベースのDeepSequenceと同程度の予測性能を実現することが示されている。さらにNotinらはこれら2つのアプローチを統合し、事前学習された自己回帰的Transformerモデルを用いたzero-shot予測にMSAから計算される頻度統計も同時に利用するTranceptionを提案し、教師なしモデルとして最高精度を実現した[101, 102, 103]。期待される通り、特にMSAに含まれる配列が少ない場合にpLMを併用することによる精度向上が顕著である。様々な変異導入効果予測手法が開発される中で、手法を比較評価するためのProteinGym[103]等のベンチマークが整備されてきている点は重要である。また、同様の発想で、ProtT5埋め込みベクトルとConSurf-DB[104]およびBLOSUM62[105]置換行列から抽出できる残基ごとの保存情報を組み合わせた教師なし手法VESPAも同程度のパフォーマンスを実現している[106]。

とはいえ、現在の教師なし手法はSpearman相関係数で見た平均的な予測精度が0.5未満に留まり[102, 103]、完全には信頼できない。また、基質特異性改変などのように、pLMsの学習に用いられる天然タンパク質には存在しないであろう性質をもった新規酵素を開発したい場合もある。したがって、教師データを効率よく取り込むことのできる変異導入効果予測モデルの開発も重要である。筆者らは、改変対象タンパク質のホモログを用いてpLMsをファインチューニングするevotuning[39]をTAPE Transformer[51]の場合に考察し、ドメインアーキテクチャ(進化的に保存された機能・構造を持つ配列単位=ドメインのタンパク質内での配置パターン)に応じて適切に行うためのプロトコルを提案した[107]。複数のタンパク質工学シナリオを想定した評価実験を行い、特に教師データが少ない設定で大幅な予測精度改善が実現できることを確認している。さらに、evotuningされたモデルはアラインされていない配列群から暗黙的に立体構造情報を獲得していることが示唆された。ECNet[108]は、改変対象タンパク質もしくは変異体配列を含むMSAからdirect coupling analysis[109]により抽出した特徴ベクトルおよびTAPE Transformerの埋め込みベクトルを組み合わせたLSTMベース教師あり変異導入効果予測モデルである。複数のdeep mutational scanning(DMS)[110]データによるベンチマークで、DeepSequenceもしくは教師あり学習したTAPE単独での予測精度を一貫して上回る性能が確認された。TranceptionがpLMとMSAを組み合わせて高精度化したのと類似した効果が教師ありの設定でも現れている。また、avGFP[111]の蛍光強度を予測するタスクでは、点変異もしくは二重変異までのデータを学習すれば四重変異体の変異導入効果が十分に予測できることを示した点は注目に値する。ECNet類似アーキテクチャに立体構造情報を追加入力することで精度向上を図る試みもある[112]。

なお、タンパク質の生体内での機能発現に重要な物性である水溶性や熱安定性予測についても、pLMsが活用され始めている[113, 114]。

3.2.2 タンパク質の機能改変

ベンチマークデータを用いた性能評価が進むpLMsベースの変異導入効果予測モデルは、すでにタンパク質工学で使われ始めている。Luoらは前述のECNetを用い、TEM-1 βラクタマーゼの点変異体と二重変異体を学習データとした予測モデルに基づき高機能配列候補を設計し、野生型に対して最大で約8倍の活性を持つ四重変異体を実際に作成した[108]。Biswasらは、evotuningしたUniRep[39]とLASSO[115]からなる予測モデルとマルコフ連鎖モンテカルロ(Markov chain Monte Carlo: MCMC)を統合した配列探索アルゴリズムを構成し、データ効率の良い機械学習ベースタンパク質工学の可能性を探った。少数(24もしくは96)の測定データを用いて予測モデルを学習し、野生型avGFP内の81残基を対象とした極めて広範な配列空間を探索して改変体を設計した結果、二桁以上高い蛍光強度をもつsfGFP[116]と同等の改変体が得られたとしている[117]。小川らは、筆者らの開発したTransformerに対するevotuning手法とベイズ最適化[118, 119]を組み合わせて配列探索し、2ラウンドの指向性進化実験により酵素XylMの基質特異性を改変、野生型の15倍の活性を持つ酵素を実現した[120]。本実験における変異導入対象は5残基であるので、理論上は20^5〜約300万の配列が探索対象となる。本研究ではサンプル数約300で上記の変異体が得られているため、大雑把な計算としては、約1万倍のコスト効率化が実現できたことになる。ただし、今回発見されなかったより高機能な変異体の存在を勘案すると、実際の効率はやや下がると考えられる。さらに、Hieらは教師なしでの抗体機能改変を試みている[121]。既知抗体とそこから生じうるすべての点変異体に対し6種のpLMsでzero-shot予測を行い、いくつかのpLMs間で共通して結合親和性が向上すると予測された変異体配列を実際の測定候補とした。その結果、驚くべきことに、臨床試験第二相に到達した成熟抗体を上記の方法で改変して得られた変異体は約7倍、未成熟な抗体に対しては実に160倍もの結合親和性向上が確認されたと報告している。

3.3 立体構造予測

深層学習に基づくタンパク質の立体構造予測アルゴリズムの開発が激化している。とりわけAlphaFold2(AF2)やRoseTTAFold(RF)[122]は従来の立体構造予測アルゴリズムと比較し遥かに高精度であり、すでに標準的ツールとして利用されるに至った(立体構造予測モデルの発展とAF2の行うデータ処理については[123]が詳しい)。最近行われた立体構造予測コンペティションのCASP15[124, 125]でもAF2ベースの手法が上位となっている[126, 127, 128]。これらのモデルは、配列からの情報抽出モジュールおよび構造計算モジュールを連結したアーキテクチャを持つ点で共通している。しかし、どちらもMSAを入力として要求するため、ホモログ取得に長い処理時間を要する場合がある、十分なホモログが取得できない場合に精度低下する、等の課題がある。前述したようにpLMsはMSAに類する情報を保持すると示唆されているので、これらの課題を解決するために配列からの情報抽出を言語モデルで代替する発想は自然である。

実際、AF2とRFが登場した翌年にはpLMsを活用した単一配列入力の立体構造予測モデルが立て続けに提案された[129, 130, 131, 132, 133, 134]。これらのモデルは、使用する言語モデルと構造計算モジュールのアーキテクチャ・学習方法、言語モデルが出力するデータの構造計算モジュールへの入力前の処理、使用する学習データ等の差分があるものの、大枠としては類似の戦略を採用している。一例を挙げると、ESMFold[53]はpLMとしてESM2を用い、その出力である埋め込みベクトルおよびアテンションマップを修正されたEvoformerに入力、AF2と同一の構造計算モジュールを用いて立体構造を予測する。また、推論性能をAF2もしくはRFと比較すると、1.入力配列が単一もしくは少数の場合は同程度もしくは高精度、2.実行速度は一桁〜数桁高速、と結論している点も共通している。例えば、既存データベースにホモログが存在しないorphanタンパク質[135]やde novo設計されたタンパク質に対しては、単一配列入力モデルがより正しい立体構造を予測したと報告されている[130, 131, 132]。

立体構造と機能との関連についても調べられている。trRosettaX-Single[132]とEMBER2[133]は、天然タンパク質とその改変体に対する予測構造の変化とDMS[97, 136]により得られた変異導入効果との間に弱い相関があることを発見した。特に[133]は、ColabFold[137]経由で得たAF2の予測構造変化よりもEMBER2のそれの方がより強く変異導入効果との相関を捉えられることを明らかにしており(Spearman相関係数で、AF2はほぼ0から-0.2程度、EMBER2は-0.2から-0.4程度)、MSAのようなタンパク質ファミリー単位ではなく解析対象配列に特異的な特徴抽出ができる点が要因ではないかと分析している。ただし、前述した配列ベースの変異導入効果予測アルゴリズムほどの精度には達しておらず、構造ベースの変異導入効果予測手法にはまだ改善が必要であると考えられる。

3.4 機能性タンパク質配列生成

VAE[99]、GAN[138]、GPT2[139]等の生成モデルをタンパク質配列設計に応用する研究は以前から進められているが[140, 141, 142]、2022年以降、大規模データで事前学習されたpLMsにより改変配列を生成し実験的検証までを一気通貫で行った成果が報告され始めた。ProGenは、CTRL[143]と呼ばれる条件付きTransformerアーキテクチャに基づき、12億パラメータを保持、約2.8億件の配列で事前学習された大規模pLMである[144]。タンパク質配列に付随する機能や種の分類を表すタクソノミーを表現するコントロールタグを指定することで生成配列を制御できる特徴がある。例としてリゾチームのホモログを用いてファインチューニングされたProGenが生成した配列は、既知天然タンパク質と同程度の酵素活性を持つことが生化学実験により確認された。さらにVerkuilらは、ESM2による配列尤度計算および立体構造予測を内蔵したMCMCにより、三次構造も考慮したタンパク質生成を実行した[145]。特に、実験検証された生成配列のうち、既知配列との配列類似度が20%未満かつ構造類似度0.5未満(TM-scoreベース)である新規タンパク質49個のうち31個は設計に成功したと報告している。この事実は、大規模pLMが単に学習データに含まれる天然タンパク質の情報を「記憶」しているだけでなく、タンパク質構造の設計原理まで学習できていることを示唆する、と著者らは述べている。ただし、ここでいう「設計の成功」とはタンパク質が水中で凝集せずに存在できるという意味であり、その機能にまでは言及されていない。所望の機能を持ったタンパク質を機械学習により設計する問題にはまだ大きな研究の余地が残されていると考えられる。

4.おわりに

タンパク質の言語モデル、pLMsの研究は、その代表的な成功例であるUniRepが登場した2019年ころから爆発的に発展してきた。本稿執筆時点で最大のpLMであるESM2は150億パラメータを持つ巨大言語モデル(ESM2-15B)であり、そのポテンシャルが精力的に解き明かされている状態である。それでは、今後のpLMs研究はどのように展開していくだろうか?

1つの妥当な推論は、現在の大規模化路線の継承であろう。NLP分野の知見として、OpenAIが発見したスケーリング則がある[146]。これは、Transformer言語モデルの性能が学習時間、データ量、モデルサイズに関するべき乗則に従い改善することを示す。実は、同様の法則はpLMsに対しても知られている。Hesslowらは、UniRef100、Metaclust[147]、MGnify[148]などの大規模なデータセットを用い、パラメータ数12億までのpLMsの言語モデルとしての性能(perplexity)変化を観察した[149]。いずれのデータに対してもモデルサイズが大きいほど結果は良好、かつ、学習時間についてのべき乗則が観測された。加えて、重要な経験事実として、言語モデルに関する創発性がより最近になって指摘されている[150, 151]。これは、上記のべき乗則に反し、小規模モデルでは見られなかった挙動があるスケールを超えると突如として現れる(NLPタスクの正答率が突然向上する)現象のことである。ESM2論文の動機の1つはpLMsにおける創発性を検証することであり、実際、perplexityが劇的に改善したモデルサイズ15Bにおいて、立体構造予測精度もまた顕著に改善したことが明らかにされている。ゆえに、pLMsの大規模化には相応のメリットがあると期待され、この方向性での研究はしばらく継続されると思われる。

とはいうものの、この“scale is all you need”路線は覇道である。本稿で見た大規模モデルのESM、ProGen、HelixFold、OmegaFoldはそれぞれMeta、Salesforce、Baidu、Helixonが提案したものであり、NVIDIAもこの領域に参入を始めている[152, 153]。公開データを用いた大規模モデル構築は現時点では資本の勝負となっている感が否めない。また、巨大モデルは取り回しが良くないため(例えばESM2-15Bの学習済みモデルファイルサイズは30GB以上ある)、実務上はより小規模なモデルのほうが適している場合もある。したがって、タンパク質配列の持つ生物学的特徴をより貪欲に取り込む工夫をし、性能に対するパラメータ効率の良いモデルを追求する方針も有意義だろう。いくつか萌芽的試みがあるのでここで紹介する。

Outeiralらは、ENA[154]から取得した約900万のcDNA配列を用いて学習したCaLM(Codon adaptation Language Model)を提案している[155]。従来のpLMsのようにアミノ酸が主たる語彙になるのではなく、64種のコドンが語彙になる新しいアプローチである。コドンの冗長性を活用することで、よりリッチな情報抽出ができるか種々のタスクで検証している。結果として、CaLMのパラメータ数は約8,600万とESM2-15BやProtT5等と比較して数十から数百倍少なく、学習データも桁違いに小さいにも関わらず、配列の種推定や熱耐性予測タスクにおいて顕著に高い精度が達成できている。また、ややテクニカルなアプローチとして、MLMにおけるマスク確率・範囲、潜在次元やアテンションヘッド数などのモデルアーキテクチャ、位置エンコーディング手法などをpLMsに対して最適化したAnkh[156]は、ESM2-15B比で3%〜10%程度のパラメータしか持たないが、複数のタスクで最良性能を発揮した。またCNNベースのProteinBERT[36]は、配列に付随するGene Ontology(GO)タグを同時にエンコードすることでTAPE Transformer等と同程度の性能を達成している。Transformerは配列長の2乗に比例する計算量を要求するためCNNベースpLMの実務的利点は大きい。またこの例は、配列以外のモダリティ(GOタグ、機能を説明した自然言語文、立体構造など)を積極的に取り入れるアドバンテージを示すものでもある。

いずれにしても、pLMsは今後、タンパク質配列からの特徴抽出、機能予測、もしくは機能設計を行う上での基盤的な役割を果たすはずである。しかし、すでに数多くのモデルとアプリケーションが提案されていながらも、従来から存在する優れたバイオインフォマティクス手法との精緻な比較や、本来利用可能なはずの生物情報資源の取り込みなどにはまだまだ着手されていない点も多い。本稿がさらに進んだ研究の入り口となれば幸いである。

References
著者略歴

山口 秀輝
東京大学大学院新領域創成科学研究科メディカル情報生命専攻博士課程3年(執筆当時)。機械学習エンジニアとして企業勤務する傍ら、生物学と機械学習をかけ合わせた領域に関心を持ち、言語モデルに基づいた表現学習およびデータ効率の良いタンパク質配列設計技術の研究を進めている。二児の父。
齋藤 裕
産業技術総合研究所・主任研究員。機械学習やバイオインフォマティクスなどの情報科学的アプローチに基づき、大量データの解析から生命を理解すること、その知見を生体分子の設計や制御へ応用することに興味を持っている。最近では、実験ロボットを使ったバイオ実験の自動化にも興味を持っている。

 
© 2023 日本バイオインフォマティクス学会

This article is licensed under a Creative Commons [Attribution-NonCommercial-ShareAlike 4.0 International] license.
https://creativecommons.org/licenses/by-nc-sa/4.0/
feedback
Top