2020 Volume 1 Issue 1 Pages 12-17
タンパク質、RNA、DNAは、いずれも配列構造をもつ分子であり、配列を変異させることでその機能を改変できる。生体分子の機能改良は配列空間の探索問題であり、機械学習などの情報科学的手法が威力を発揮する。抗体の結合親和性、酵素の反応活性、mRNAの翻訳効率、プロモーターDNAの転写活性など、様々な生体分子の機能改良において、機械学習の有効性が示されてきた。本稿では、機械学習による生体分子の機能改良について、筆者の研究やその他の研究事例を紹介する。
タンパク質は機能性分子として幅広い分野で利用されている。バイオ医薬品として使用される抗体、有用物質生産のための酵素、生命科学実験に必要不可欠な蛍光タンパク質など、その用途には枚挙にいとまがない。RNAとDNAもアプタマー*や核酸医薬としての利用が期待されている。また、mRNAの翻訳効率やプロモーターDNAの転写活性は、遺伝子発現を制御する重要な因子である。このような生体分子の機能を改良することは、生物工学の主要なテーマの1つである(図1)。
タンパク質、RNA、DNAは、いずれも配列構造をもつ分子であり、配列を変異させることでその機能を改変できる。配列長をLとすると、タンパク質には20L通り、RNAとDNAには4L通りの配列が存在する。生体分子の機能改良は、この配列空間から所望の機能を有する配列を探索する問題と考えられる。
配列空間は配列長に対して指数関数的に増大するため、短い配列でも膨大な規模になる。実際には、配列の全長ではなく一部の領域のみが改変の対象になることが多い。例えば、抗体では、標的との結合に関与する相補性決定領域(CDR)という数十残基程度の領域が主な改変対象になる。しかし、この場合でも配列空間は2010(≒1013)以上となる。現在の実験技術によって機能測定を行える配列数の規模は、配列空間に比べて遥かに小さい。例えば、抗体などの結合親和性のスクリーニングに用いられるファージディスプレイは、109規模が限界である。また、酵素の反応活性はハイスループット測定が困難な場合が多く、一般的な大学ラボのリソースでは102規模が限界である。
膨大な配列空間から所望の機能を有する配列を効率良く探索するために、機械学習などの情報科学的手法が有効である。典型的な機能改良の手順は次のようになる。
全ての既存研究が必ずしもこの手順に沿っているわけではない。例えば、(2)の予測モデルとして分子シミュレーションなどの第一原理計算を用いる場合、(1)の教師データは必要ない。また、(2)にautoencoderなどの生成モデルを用いる場合、配列をサンプリングすることで(3)の探索アルゴリズムを代用できる。1回のサイクルで高機能な配列を発見できた場合には、(4)のフィードバックは行わないことも多い。
黎明期の研究として、2007年にFoxらは機械学習を用いて酵素halohydrin dehalogenaseの活性向上を行った[1]。野生型酵素を出発点として、変異導入、活性測定、部分的最小二乗回帰による活性予測を18サイクル繰り返して、最終的に活性を約4,000倍向上した。その後、2017~2018年頃を皮切りに、人工知能ブームに後押しされる形で、世界各国のラボから機械学習によるタンパク質の機能改良に関する研究が続々と報告され始めた。
筆者らは、タンパク質の機能改良における機械学習の有効性を検証する目的で、蛍光タンパク質を緑色から黄色へ改変する研究を行った [2]。既存の緑色蛍光タンパク質(GFP)と黄色蛍光タンパク質(YFP)のアラインメントから絞り込んだ4ヶ所の残基に変異導入を行い、155個の変異体を調製して蛍光波長と蛍光強度を測定した。これを教師データとして、ベイズ最適化によって配列空間の全変異体(=204)から予測を行った。予測上位の変異体には、既存のYFPより長波長(黄色)で蛍光強度も高い変異体が多数含まれていた。
Wuらは、海洋好熱菌Rhodothermus marinus由来の酵素を対象として、立体選択性を向上した[3]。まず、活性部位に近い4ヶ所の残基に変異導入を行い、機械学習、全配列空間の予測、実験検証を行った。次に、最も立体選択性の高かった変異体について、これらの4ヶ所を固定した上で、基質のエントリーチャネルの近傍にある3ヶ所の残基に変異導入を行い、2ラウンド目の学習、予測、検証を行った。教師データには各ラウンドで数十~百数十個の変異体を使用しており、学習モデルにはscikit-learnのモデルを複数試している。
Masonらは、抗体医薬Herceptinの標的への結合親和性を向上させた[4]。HerceptinのCDRのうち10ヶ所の残基に変異導入を行い、ほ乳類細胞ディスプレイという彼ら独自の技術でスクリーニングを行い、標的に結合する変異体群(正例)と結合しない変異体群(負例)それぞれの配列を104規模で取得した。これを教師データとして、CNNおよびLSTMベースの深層学習による結合親和性予測モデルを構築した。次に、予測の配列空間を絞り込むために、各残基において正例での出現頻度が負例よりも高かったアミノ酸を抽出して、これらのアミノ酸しか許可しない配列空間(≒108)を定義した。予測と実験検証を行い、Herceptinよりも結合親和性の高い変異体を発見した。
ここまで紹介した研究は、どれも既存のタンパク質に変異導入を行いながら機能を改良していくアプローチを取っている。このような方法を指向性進化という。これに対して、既存のタンパク質を介さず、まったく新しいタンパク質を創り出すことをde novo設計という。ワシントン大学のDavid Bakerのグループは、彼らの開発したソフトウェアRosettaを使用して、様々なタンパク質のde novo設計を行っている。Rosettaには非常に多数の機能が実装されているが[5]、代表的な機能として、ユーザーの指定した主鎖の3D構造に対して、その構造にフォールドするエネルギー的に安定な側鎖(アミノ酸配列)を探索・生成することができる。また、Bakerグループもde novo設計したタンパク質の機能を改良するために、指向性進化的なアプローチや機械学習を取り入れている。例えば、Rocklinらは、de novo設計したタンパク質を出発点として、酵母ディスプレイによるスクリーニングと機械学習による予測を組み合わせて、構造安定性の向上に成功している [6]。
タンパク質の機械学習では、入力のアミノ酸配列を数値化して特徴ベクトルにする必要がある。ここまで紹介した研究の多くは、20種類のアミノ酸を20次元のbitベクトルで表現するone-hot encodingを使用している[1, 3, 4]。一方、アミノ酸の物理化学特性などの性質を数値化した、いわゆるhand-craftedな特徴ベクトルも多数提案されており[7]、筆者らの先行研究でも使用されている[2]。
最近では、自然言語処理における表現学習を応用して、特徴ベクトルを自動的に生成する研究も行われている(図2)。まず、大量の配列データ(UniProt全体やPfam全体など)を用いて、数値表現を教師なしで学習しておく。その後、表現学習器による数値表現を特徴ベクトルとして、下流の予測器を教師ありで学習する。Alleyらは、LSTMベースの表現学習器UniRepを開発した [8]。下流の予測器にLASSOを用いて、UniRepによる特徴ベクトルが、酵素活性予測や結合親和性予測など様々な予測タスクに有効であることを示した。また、表現学習器の教師なし学習の方法として、最終的に予測を行いたいタンパク質のホモログ配列を使用することにより進化的な情報を取り入れるアイデア(evo-tuning)を提案した。さらに、続報論文では、UniRep-LASSOによる予測器をマルコフ連鎖モンテカルロによる探索アルゴリズムと組み合わせて、変異導入残基81ヶ所という極めて膨大な配列空間から、高機能な変異体の探索が行えることを示した [9]。
mRNAの翻訳効率は遺伝子発現に影響を与える。生物工学において異種由来の遺伝子を細胞に導入する際、野生型配列のままだと翻訳効率が低く十分な発現量を得られないことがある。その場合、mRNAの配列を改変して翻訳効率を向上する必要が生じる。これは目的タンパク質のアミノ酸配列を変えないように、mRNAのコドン使用パターンを最適化する問題であるため、コドン最適化と呼ばれる。よく行われるのは、宿主生物の内在性遺伝子におけるコドン出現頻度に基づき、頻度の低いコドン(レアコドン)を頻度の高い同義コドンで置換する方法である。また、mRNAの二次構造の計算機予測に基づいて、二次構造を不安定化させるような同義置換を導入する方法も行われる。これは強固な二次構造がリボソームの結合を妨げ、翻訳を阻害すると考えられるためである。
Boëlらは、コドン最適化に機械学習を用いる先駆的な研究を行った[10]。約6,000個の異種由来の遺伝子を同一のベクター系で大腸菌に導入して、SDS-PAGE*でタンパク質発現量を測定した。mRNAの様々な配列特徴量からタンパク質発現量を予測する多変量回帰モデルを学習して、重み係数から配列特徴量の寄与を調べた。すると、従来から知られていたコドン頻度や二次構造の安定性に加えて、コドン繰り返し頻度などの新しい配列特徴量がタンパク質発現量に影響を与えることが明らかになった。また、寄与の特に大きい配列特徴量に基づいてコドン最適化を行い、タンパク質発現量を向上することに成功した。
このような機械学習によるコドン最適化の研究は、これまで大腸菌などのモデル生物に限られていた。一方、バイオ産業の現場では、放線菌などの大腸菌とは異なる性質をもつ生物種が宿主として利用されることもある。そこで筆者らは、産総研で長年研究されてきた放線菌Rhodococcus erythropolisを対象として、Boëlらと類似の研究を行った [11]。204個の異種由来遺伝子を同一のベクター系で発現させ、配列特徴量とタンパク質発現量の相関解析を行った。その結果、コドン頻度や二次構造の安定性など主要な配列特徴量については大腸菌と類似の傾向が見られたが、コドン繰り返し頻度などは大腸菌と異なる傾向を示した。このことから、コドン最適化における生物種ごとの特異性が示唆された。また、発見した配列特徴量に基づいてコドン最適化を行ったところ、12個中9個の遺伝子についてタンパク質発現量の向上に成功した。
mRNAの翻訳効率を制御する方法として、コドン最適化の他に、5'UTRの改変が挙げられる。Sampleらは、ヒト5'UTRの配列と翻訳効率の関係を大規模データの機械学習によって調べた [12]。50塩基のランダム領域を含む5'UTRのライブラリーを構築して、GFPレポーターアッセイとポリソームプロファイリングによって、260,000配列について翻訳効率を測定した。これを教師データとして、CNNベースの深層学習による予測モデルを構築した。この予測モデルを遺伝的アルゴリズムと組み合わせて、膨大な配列空間(450)から予測値の高い配列から低い配列まで、様々な配列を探索した。実験検証を行い、予測値と翻訳量が良く相関していることを確かめた。
導入した遺伝子の発現量を向上するために、プロモーターDNAの塩基配列を改変して転写活性を高めることも考えられる。プロモーター内の転写因子結合部位(TFBS)が知られている場合、その配列を多コピー化することで転写活性を向上できる。しかし、TFBSが分からない場合や、そもそもどの転写因子の制御を受けているか不明な場合もある。また、転写因子のtitration効果(複数のTFBSが転写因子を取り合うこと)のために、多コピー化による転写活性の向上には限界がある。
TFBSのコピー数を変えずに転写活性を向上する方法として、ヌクレオソーム親和性に基づくアプローチがある。真核生物のプロモーターDNAは、ヒストンに巻き付いて存在している。その親和性を下げるように配列を改変すれば、転写因子がTFBSにアクセスしやすくなり、転写活性の向上が期待できる。Curranらは、ヌクレオソーム親和性の機械学習により、出芽酵母のプロモーターDNAの転写活性を向上させた [13]。まず、ヌクレオソームに結合しているDNA断片をゲノムワイドに測定した先行研究のデータを用いて、隠れマルコフモデルを学習した。この隠れマルコフモデルは、「ヌクレオソーム状態」と「リンカー状態」をもち、2状態の尤度比スコアからヌクレオソーム親和性を予測する。このモデルを用いて、プロモーターDNAの改良を行った。まず、CYC1遺伝子の開始コドン上流300塩基の配列をプロモーター領域とした。この配列を出発点として、次のような貪欲探索アルゴリズムで予測スコアの低い配列を探索した。まず、野生型に対して1塩基のみ変異を持つ配列群を考え、それらの予測スコアを計算する。変異導入では、既知のTFBS、TATAボックス、CAATボックスなどのシス因子*には変異を入れないようにする。最も予測スコアの小さい配列を選び取り、また1塩基変異体群に対して予測を行う。このプロセスを予測スコアが低下しなくなるまで繰り返す。このようにしてヌクレオソーム親和性を低下させたCYC1プロモーターは、野生型に対して転写活性が約4倍向上していた。同様の方法で、CYC1以外の数遺伝子のプロモーターについても、転写活性の向上に成功した。
ヌクレオソーム親和性に基づくプロモーターの改変は強力なアプローチだが、現状、出芽酵母にしか使用された実績がない。筆者らは、この方法が出芽酵母以外のプロモーターにも応用可能か調べるために、日本のバイオ産業でよく用いられる麹菌を対象として研究を進めている(論文準備中)。
生体分子の機能改良における機械学習の研究は、タンパク質、RNA、DNAそれぞれで着実に進展している。特に、タンパク質については、ここ1~2年で競争が激化しており、すでに戦国時代の様相を呈している。RNAとDNAについて、本稿では、生物を用いた物質生産の文脈で、mRNAの翻訳効率やプロモーターDNAの転写活性の向上に関する研究を紹介した。一方で、アプタマーについては、あまり触れていない。SELEX-seqなどの実験技術により、アプタマーの大規模なスクリーニングが可能になっている。しかし、現在のSELEX-seqデータの解析手法は、ライブラリーの中から有望クローンを同定することに主眼を置いている [14]。ライブラリーに存在しなかった配列も対象にして、配列空間からの探索を行うための手法は、あまり研究されていないようである。
最後に、当分野の課題と将来展望について書く。まず、mRNAの翻訳効率の向上は、必ずしもタンパク質発現量の向上に繋がらないかもしれない。例えば、タンパク質のドメイン境界にあたる領域では、翻訳と共役したフォールディングを適切に行うために、翻訳を遅くした方が良いとの知見がある。翻訳効率を上げすぎると、ミスフォールディングが起こり凝集してしまう可能性がある。このような翻訳効率の精密制御は、今後の課題となるだろう。また、本稿ではタンパク質、RNA、DNAの機能改良を完全に別個の問題として扱っている。しかし、例えば、5'UTRに転写制御のシス因子が存在することもあるなど、これらの問題は独立ではない。異なる種類の生体分子の事情が交差する領域では、配列空間の適応度地形は極めて複雑になる可能性がある。このような配列空間から所望の機能を有する配列を探索する技術も、今後の進展が待たれるところである。
標的分子と特異的に結合する核酸分子。標的分子に対する阻害剤などとして利用される。
・SDS-PAGEタンパク質の電気泳動を行う実験手法。目的タンパク質の分子量に対応するバンドの濃さを定量することで、タンパク質発現量を測定することができる。
・シス因子ゲノム上に存在する、周囲の遺伝子の発現を制御する機能を持った領域のこと。ここでは、プロモーター領域やその中に存在するTATAボックス、転写因子結合部位などを指す。
![]() |
齋藤 裕 産業技術総合研究所主任研究員。機械学習やバイオインフォマティクスなどの情報科学的アプローチに基づき、大量データの解析から生命を理解すること、その知見を生体分子の設計や制御へ応用することに興味を持っている。昨年より研究室を開設。大学院生募集中。研究室ホームページ:https://sta.aist.go.jp/yutaka.saito/ |