JSBi Bioinformatics Review
Online ISSN : 2435-7022
総説
機械学習によるRNA設計
角 俊輔
著者情報
ジャーナル オープンアクセス HTML

2025 年 6 巻 2 号 p. 69-85

詳細
Abstract

RNAは生命科学における多面的な機能分子である。mRNAの他に、tRNA, miRNA, lncRNAなどの多くのノンコーディングRNA(ncRNA) が知られ、細胞内の重要な生命現象を担う。近年、RNAワクチン、RNAバイオセンサー、RNA治療薬といった応用の高まりにより、機能性RNAを合理的に設計する技術の重要性は急速に増している。RNA設計には長らく逆フォールディングと呼ばれる手法が提案されてきたが、特に急速に興隆しているのが、機械学習を用いたRNA設計技術である。そこで本総説では、従来のRNA設計技術に触れながら、機械学習を活用したRNA設計の最近の現状と展望を整理する。

1.RNA設計問題

RNA設計とは、特定の構造や機能を持つRNA配列を作る逆問題と言える。RNAに限らず生体配列は、長さに対して指数関数的に場合の数が存在するため、配列を列挙して調べることは殆ど不可能である。そのため、この巨大な配列空間を効率的に探索することが重要であり、長らく研究が行われてきた。特に近年は遺伝子工学の発展により、RNA配列の合成が容易になり、その利用目的も多く出現してきたため、RNA設計は多ような形で急速に発展している。

RNA設計は、手法や目的によって方向性をおおよそ分けることができる。例えば、代表的な制約条件としては構造制約と機能制約が大きく挙げられる。構造制約とは、与えられた二次構造や立体構造を再現するように配列を設計するものであり、いわゆるRNA逆フォールディングの問題に対応する。一方で、機能制約とは、翻訳効率や安定性、リガンド結合能など、配列が発揮する生物学的機能を直接最適化する問題を指す。ただ、リボスイッチやリボザイムのように構造と機能が密接に関与する場合には、構造制約を解くことで機能制約を間接的に満たすというアプローチも存在する。さらに、設計したリボザイム等はmRNAに搭載されることが多く、その意味ではmRNA設計の一部とも言えるかもしれない。このように、RNA設計は、手法・目的などの様々なレベルで相互に関連しており、綺麗な分類は難しい。

これまでRNA設計の多くは長らく、RNA逆フォールディング問題という、二次構造制約下で配列を設計する問題が研究されてきたが、最近では機械学習によって機能制約を直接解く研究方針も多く出現している。この他にも生成モデルを用いた配列生成や、深層学習とRNA逆フォールディングの融合、立体構造に基づく配列生成など極めて多彩な手法が提案されつつある。また、様々なRNA構造情報や活性情報の取得が可能になり、予測モデルの作成とそれに基づく配列設計も進んでいる。さらに、深層学習自体も言語モデル等の進化に伴って、RNAのための巨大な汎用モデル、いわゆる「基盤モデル」の開発競争も始まっており、RNA設計研究の方向性は大きく変わりつつある。

そこで、本総説ではこれらを踏まえて、設計対象の観点から機械学習によるRNA設計研究に関して整理し、技術的詳細には立ち入らずに設計課題の大枠を紹介してみる。そのため、本総説はRNA設計研究の一側面として読むのが妥当である。より一般的な観点から記述されたRNAデザインに関する日本語の先行総説もあるので、そちらも併読することを推奨する[1]。また、技術的な観点に関してはタンパク質分野と重複する部分もあり、森脇や山口らの総説[2, 3]も参考になると思われる。

2.RNA逆フォールディングによる設計

RNA設計の古典的かつ中心的なアプローチの一つがRNA逆フォールディング である。通常のRNAフォールディング問題は「配列が与えられたときに、その熱力学的に安定な二次構造を予測する」順問題である。これに対し逆フォールディングは、「目的とする構造が与えられたときに、その構造を形成する配列を設計する」という逆問題を解くことを目的とする。

RNAフォールディングはNussinovアルゴリズム[4]やZukerアルゴリズム[5]といった動的計画法に基づき、最適構造を多項式時間で計算できる。一方、逆フォールディングは構造制約を満たす配列を探索する必要があり、組合せ爆発的な探索空間を持つNP困難問題であることが知られている(図1)[6]。このため、効率的な探索を行うために、適応的ランダムウォークや遺伝的アルゴリズムなどのヒューリスティックな手法がこれまで開発されてきた。ヒューリスティックな手法は多く提案されており、本総説では詳しくは説明しないため、Churkinらや浜田による総説などを参照されたい[1, 7]。最近では、配列生成や深層強化学習を用いた二次構造のRNA逆フォールディングの試みが登場しているため、簡単に紹介する。

図1:RNA逆フォールディングの概念図

機械学習を用いたRNA生成のアプローチとしてはSentRNA[8]、RNAinformer[9]やRWKV-IF[10]が挙げられる。SentRNAは、人間用のEternaというRNA逆フォールディングを題材にしたゲームにおいて好成績であった人間の解答例を学習させた配列予測である[8]。SentRNAは幾つかの人間の定石的アプローチを再現し、探索と組み合わせることで複数のベンチマークで良い成績を示している。RNAinformerは、二次構造を隣接行列で受け取ることでシュードノットや非正準塩基対に対応できるエンコーダー・デコーダー型のtransformerである。RfamとPDB由来のベンチマークで、シュードノットや指定GC含有率を満たす解を安定的に発見することに成功している。RWKV-IFでは、RWKVというRNNとTransformerの特長を兼ね備えたハイブリッドモデルに、構造と配列を連結した文字列を学習させ、逆フォールディング問題にアプローチしている[10]。Eternabenchを用いたベンチマークでRNAinverseやAntaRNAといったヒューリスティック手法よりも良い成績を報告した。

また、深層強化学習を用いたRNA逆フォールディングとしてはRungeらによるLEARNA[11]が代表的である。LEARNAはターゲットの二次構造に対して、ドット/ブラケット部分の塩基を逐次生成する方法を強化学習で学習していく枠組みである。LEARNAは各ターゲットに対して方策を毎回学習する必要があるが、複数ターゲットに対して単一方策を同時に学習させたMeta-LEARNA/Meta-LEARNA-Adaptも提案している。これにより未知構造に対しても高速かつ高い成功率の設計を達成している。

都合上、機械学習を用いた幾つかの研究を取り上げたが、RNA逆フォールディング研究はこの他にも様々な手法が開発されており、例えば、良い成績を出すヒューリスティクスSAMFEO[12]も報告されている。また使用するデータセットなど実験条件を揃える基盤構築[13]も試みられている。また、最近では、逆フォールディング問題自体を拡張した「部分RNAデザイン」という枠組みもLEARNAの開発者Rungeらによって提案された[14]。部分RNAデザイン問題は配列と構造の両方が部分的にマスクされた状態を解く問題であり、libLEARNAという設計手法が提案されている。RNA逆フォールディングでは完全な二次構造を与えなくてはいけないのだが、実用的な状況では必ずしも完全な二次構造を指定したいわけではないこともある。実験的な場面では、部分RNAデザインの様に部分的な配列や構造のみを指定したいことも多いため、実用性がより高い問題設定かもしれない。

3.mRNAの設計

mRNAの設計は、オリゴライブラリ合成やmassively parallel reporter assay(MPRA)などの実験技術の発展[15]と、mRNAワクチンなどの応用先の登場により[16]、急速に発展している領域である。オリゴライブラリ合成とはカスタムDNAライブラリをプールとして提供するサービスである。MPRAは、短いDNA配列をバーコード付きレポーターにクローニングし、細胞に導入して活性を同時測定する手法である。例えば、5′UTRなどの数百塩基程度以下の部分配列であれば、大規模な(~105程度の)mRNAライブラリが実験的に構築可能であり、観測したい現象(例えば翻訳活性)に対応した実験をすることで、配列の網羅的な活性評価ができるようになった。その結果、学習データの獲得や設計配列の評価が可能になり、データの蓄積によって、mRNAの設計は様々な流れで発展している。本章ではヒトのmRNA設計の対象に注目し、5′/3′untranslated region(UTR)やcoding sequence(CDS)などのエレメントごとの設計に関して議論してみる(図2)。

図2:mRNAの構造とその設計指針

3-1.5′UTRの設計

効率的なmRNAワクチンや遺伝子治療を目指してmRNAの最適な設計を目指す試みも存在する。この際、よく注目されるのが、mRNAの翻訳効率を制御する因子の一つの5′UTRである。ここにはリボソームの翻訳開始効率に関与する因子が複数存在し、mRNAの翻訳効率を左右する。近年は、5′UTRライブラリとポリソームプロファイリングを組み合わせたMPRAの大規模なデータ取得が行われつつある[17, 18]。ポリソームプロファイリングとは、mRNAがどの程度の数のリボソームに翻訳されているのかを定量的に測定する実験手法であり、mRNAごとに平均何個のリボソームが乗っているのか(mean ribosome loading, MRL)を定量することができる。このような人工5′UTRのMRLデータの蓄積により、翻訳効率の制御に向けた5′UTR設計の試みが盛んに行われている[18, 19, 20, 21, 22]。この試みは、5′UTRの翻訳効率の予測と、新規5′UTR配列の生成という2つのアプローチが主流である。

特に、SeeligグループのSampleらによって取得された研究が先駆的である[18]。この研究では、ポリソームプロファイリングを用いて、ランダム化された5′UTRのMRLの大規模なデータを報告するとともに、MRLデータの予測モデルOptimus 5-Primeを開発している。また、シュードウリジンなど修飾塩基などを使用した時のMRLデータや、翻訳効率に関与する既知の特徴(uORFの有無、二次構造、コザック配列)なども体系的に報告している。多くの後続研究では、この大規模データに基づいた開発が進められており、モデルの改善、配列長さの制限や解釈性の向上が試みられている[23, 24]。

こうして開発された翻訳効率予測器を用いて、より高い翻訳効率を持つ5′UTRを設計する試みも行われ、より近年では生成モデルとの統合も行われつつある[18, 19, 21, 22]。当初、SampleらはOptimus 5-Primeと遺伝的アルゴリズムを組み合わせて最適化された5′UTRを設計していた。後続研究では幾つかの細胞種でのMRLデータを獲得しながら、Optimus 5-Primeのactivation maximization(モデルのパラメータ固定の下、入力での微分による出力最大化)[25]やVariational AutoEncoder(VAE)を用いた配列生成を実施している[21]。また、この他の5′UTR生成モデルとしては、Generative Adversarial Network(GAN)、VAE, Latent Diffusion Model(LDM)、言語モデルを用いた、UTRGANやSmart5UTR、RNAdiffusion、UTR-LMも最近発表されている。UTRGANでは、ヒトの5′UTRをGANの一種[26]を用いて学習させ、activation maximizationを用いて翻訳効率を向上させた5′UTR生成に取り組み、βグロビンの5′UTRよりも高い翻訳活性を実現した[20]。また類似のアプローチとして、RileyらによるGARDNも存在する[27]。GARDNはUTRGANと非常に似たモデルであるが、機能予測の際に二次構造情報を使用し、予測性能が改善されている。RileyらはGARDNを用いた最適化によって、5′UTRの翻訳活性の向上を報告している。Smart5UTRでは、mRNAワクチンに使用されるN1-Methylpseudouridine(m1ψ)使用時の5′UTR設計を扱っている[19]。Smart5UTRでは、5′UTRのオートエンコーダーと翻訳活性予測モデルを学習させることで、高活性の5′UTRを選択的に生成している。学習データとしてはSampleらの研究で取得されたm1ψの5′UTRの情報を再利用しており、生成配列をin vitroとin vivo両方の実験で検証している。また、PARADE[28]では5′/3′UTRによる組織特異的な発現や安定的な発現のためのデータ構築と予測/生成モデルの作成を行っている。5′UTRに関しては、6細胞種を用いたMPRAを実施し、Convolutional Neural Network(CNN)を用いてそれぞれの細胞種における発現強度の予測モデルPARADE Predictorを作成し、遺伝的アルゴリズムや拡散モデルにより組織特異的な発現をする5′UTRを生成するPARADE Generatorも作成している。また、5′UTRの発現量とRNA結合タンパク質(RBP)結合モチーフのスコアと相関することを報告しており、今後の5′UTRの設計基盤を構築している。

RNAdiffusionでは、後述する基盤モデル的なアプローチに少し近く、LDMというオートエンコーダーと拡散モデルを用いたアプローチにより汎用的なRNA生成モデルを作成している。そしてその応用例として5′UTRの生成に取り組み、UTRGANよりも二次構造とMRLのトレードオフ関係を緩和する配列生成を行った。UTR-LMでは、複数生物種の5′UTRをRNA二次構造情報とともにBidirectional Encoder Representations from Transformers(BERT)に事前学習させ、翻訳効率予測やInternal Ribosome Entry Site(IRES)予測で性能向上を示している。そして、UTR-LMを用いて設計した配列の実験検証により、翻訳能の向上を確認している。この他の手法として、翻訳効率に影響を与える既知の特徴を列挙し、その予測器を用いて、DNA言語モデルとLaMBOという同時最適化アルゴリズムを用いたYamadaらによるアプローチも存在する[29]。Yamadaらは、mRNA設計において経験的に重要な4つの特徴(MRL、グアニン四重鎖、mRNA分解耐性、U含有量)を同時に最適化し、それらのトレードオフを改善させている。また、実験検証も行っており、5′UTRにおけるU含有量を減らしながらMRLを実際に向上させることに成功した。

このように、実験的需要と実験データの獲得や利活用、モデルの改善など様々な方向性で5′UTR設計は発展を遂げている。一方、MPRAで人工的に作成されたMRLデータは、非常に多くのRNAを一挙に調べることが可能であり細胞種間でよく再現されるものの[21]、人工データで学習したモデルは内在のmRNAの翻訳効率の予測性が悪いなどの問題点も指摘されている[30]。このように大規模な実験データは頻繁に取得されることがないが、施設や実験条件に対して横断的なデータの蓄積が期待される。

3-2.3′UTRの設計

3′UTRは、RBPやmiRNAによるmRNAの安定性制御や、polyAシグナルを介してアイソフォーム生成の制御を担う領域である。後者の現象をalternative polyadenylation(APA)と言い、mRNAの安定性とは別に測定される。mRNAの安定性は、mRNAの発現量の半減期を測定するMPRAにより評価されることが多い。APAでは、polyadenylation site(PAS)で切断とpolyA付加が起きるため、mRNAのシーケンスによりPAS特定とAPA定量が可能である。

mRNAの安定性に基づく3′UTR設計に関しては、Ginkgo bioworks社が発表した研究が代表的である[31]。この研究では、様々な測定条件のもと、天然3′UTRの半減期測定に加えて、機械学習による人工3′UTRの設計と測定のサイクルを繰り返した合計18万配列の大規模かつ横断的データを取得している。この研究では、最終的に設計したmRNAをマウスに導入し、βグロビンの3′UTRに対して半減期を2倍延長し、総タンパク質発現量では約100倍の向上を示すことに成功している。しかし、この研究では人工3′UTRの半減期の最長は13時間程度であり、野生型3′UTRの半減期でも最長10時間程度だったことを鑑みると、著しく長い半減期を持つ3′UTRには更なる工夫が必要と考察している。加えて、mRNA半減期がタンパク発現に必ずしも寄与しないこと、CDSや5′UTRの配列によって半減期が異なることや細胞種による結果のばらつきなども報告されている。この他の研究では、5′UTRの章で紹介したPARADE[28]でも、3′UTRの最適化による安定性の向上を計っている。PARADEでは6細胞種でMPRAを実施し、安定性に関与する3′UTRのRBP結合モチーフを多く発見したが、その寄与は細胞種によって異なることを報告している。PARADEではT細胞で高い安定性と翻訳活性を示すような3′UTRセグメントを融合させた3′UTRにより、マウスで安定的な発現を実現した。ただ、自然界の配列は強力なモチーフを避ける傾向にあり、より高効率な発現や安定性を実現するには、自然界の配列に制約されない配列生成が重要かもしれないと考察している。また、mRNAの半減期予測モデルsalukiでは[32]、3′UTRの特徴が予測に大きく寄与するものの、3′UTR以外の配列要素も有効であることを報告しており、3′UTRの複雑な文脈依存性が今後の課題かもしれない。

APAに関連する配列設計は、SeeligグループのAPARENTが代表的である[33]。APARENTでは、3′UTRライブラリとそのpolyA直上のシーケンスによりPASの使用率を算出した。彼らはUTR配列から使用されたPASの割合を予測する機械学習モデルを作成し、PASが使用される決定因子の解析を行った。その結果、PASのコアモチーフやその補助因子の結合モチーフが予測に関与することを確認している。さらに、この予測器を用いて、PASの切断割合を制御した3′UTRの配列設計を可能にしている。さらに後続のAPARENT2[34]ではResNetを用いた予測モデルにより予測精度を改善しており、より正確なAPA設計によるアイソフォームの選択的発現が可能かもしれない。

3-3.CDSの設計

機械学習によるCDSの設計は、コドン最適化のアプローチが多い[35]。生物種によって使用されるコドンの頻度が異なるため、ヒト以外の生物種に由来する外来遺伝子をヒトで発現させる際にコドン最適化は重要である。これまでは、コドンの単純置換やCodon Adaptation Index(CAI)、tRNA Adaptation Index(tAI)などの単純な指標に基づいた最適化が提案されていた。しかし、コドンはリボソームの翻訳速度に大きく関係し、CDS全体のコドンは調和されていることが知られている。そのため、上記の指標のみを用いた単純なコドンの置き換えでは調和されたCDSを設計するのに不十分だと考えられている[36]。また、複数のCDSの設計指標を同時に最適化することも容易ではない。そこで近年では、機械学習によるCDS設計が盛んに行われている。コドン最適化研究は非常に多く行われており、発現量向上だけでなく、最終的な目的に応じて、構造安定化や免疫原性の低減など最適化の方針も様々である。例えば、医療応用の観点からだとParemskaiaらによる総説が詳しい[37]。

機械学習を用いたCDS設計は、基本的に、アミノ酸配列からCDSを生成するseq2seqモデルによって構築される。これまでRecurrent Neural Network(RNN)やエンコーダー・デコーダー型のtransformerを用いた手法が複数報告されている。RNNを用いたモデルでは、ICOR[38]、Fuらによる研究[39]、Gouletらによる研究[40]、RaviとSharmaによる研究[41]などが挙げられ、transformerを用いたモデルではDeepCodon[42]、CodonTransformer[35]、RNop[43]、Trias[44]などが報告されているが、基本的な方針は同じであるため、ここではいくつかに絞って紹介する。Triasでは、Bidirectional & Autoregressive Transformer(BART)[45]と呼ばれるエンコーダー・デコーダー型モデルを用いてCDS設計を行う[44]。Triasは640種の脊椎動物のCDSを学習しており、発現させたい生物種とアミノ酸配列を入力するとCDSを生成することができる。Triasは、コドンの単純な頻度指標に従ったCDSを生成するのではなく、レアコドンのクラスターなど複雑なCDSの文脈依存性を学習しているようである。また、mRNAの半減期、MRL、タンパク質発現量のゼロショット予測も報告している。

また異種発現を目的とするだけでなく、各臓器におけるタンパク質発現の最大化を目指したRaviとSharmaによる研究[41]もある。これは、各臓器における高発現遺伝子を学習させたRNNを用いてCDSを設計し、実験によってコドン最適化が発現量の上昇に寄与することを示している。また、RiboCode[46]は、CDSとトランスクリプトームなどの細胞環境の情報を入力としてCDSの翻訳量を予測するモデルを用い、CDS配列生成をactivation maximizationで行う。これにより細胞環境に応じてCDS設計が可能であり、細胞種による翻訳活性の変化を実験で検証している。

3-4.mRNA全長の設計

mRNAはUTRやCDSに分割できるものの、UTRとCDSの間で相互に文脈依存性がある。そこで、全体として論じるために、mRNA全長を設計する機械学習モデルがいくつか提案されているので、本章で議論する。

基本的には、CDS/UTRを分割して学習/生成し、mRNAを構成するという方針で設計される。たとえば、iDRO[47]は、LSTMの一種とBARTを組み合わせ、タンパク質配列からCDSをまず設計し、そのCDSに対応したUTRを生成するパイプラインである。iDROで設計したmRNAは構造安定化と発現量向上を同時に達成したことを実験で示している。

また、直近で報告されたGEMORA[48]では、transformerによるタンパク質配列からのCDS生成モデルと5′/3′UTR生成モデルを組み合わせた手法である。さらに、5′UTRに対してはMRL最大化、3′UTRに対しては安定性最大化をするように予測モデルを使って生成をしている。その結果、直鎖mRNAと環状mRNAの両方で大幅なタンパク発現の向上を報告している。加えて、ホワイトペーパーではあるが、Ginkgo Bioworks社が発表したmDD-0もあげられる[49]。mDD-0では、UTR/CDSの各言語モデルを用いて情報を抽出し、transformerを用いて相互参照し、拡散モデルでCDS/UTRを個別に生成するという設計である。mDD-0は学習データの統計をよく再現するだけでなく、機能指標に最適化させたmRNAの設計も可能であることを報告している。

また全長mRNAの基盤モデル構築も進んでいる。mRNAのような長いRNAは、transformerでは全長を設計することができなかった。そのためCDSとUTRを個別に設計するアプローチが多かったが、Helix-mRNA[50]は長い文脈を扱えるmamba[51]を用いることで12kまでのmRNAを扱えることが可能になった。そこで真核生物とウイルスのmRNAによる事前学習を実施し、翻訳活性予測や安定性予測の下流タスクで他手法より同等かそれ以上の成績を報告している。

全長mRNAのモデルが登場し始め、統一的にmRNAの様々なタスクが扱える様になってきた。今後の課題としては、MPRAでよく用いられるUTRライブラリやそれを用いたモデル検証は、mRNA全長からすると限られた領域しか可変でないため、mRNA全長に渡る複雑な文脈を検証できているとは言えない点が挙げられる。現状、長鎖DNA合成のコストが高いため、mRNA全体の大規模ライブラリの実験検証には至っておらず、全長mRNA設計研究は長鎖DNA合成技術の発展を待つところが大きいかもしれない。

4.RNAファミリー配列の設計

mRNA以外の多くのRNA設計問題は、典型的には特定の機能性RNAのファミリー(リボザイム、アプタマーなど)の設計に落ち着く。これらRNAファミリーは、進化の過程で保存されたRNA群であり配列・構造・機能の特徴を共有した集団である。tRNA、リボソーム、IRES、リボザイムといったよく知られる機能性RNAは、おおよそRNAファミリーという概念と対応しており、RNAファミリーがまとめられているRfamデータベース[52]には4,000以上のファミリーが登録されている。RNAファミリー配列の設計は、これまで各論的に1つ1つのRNAファミリーに関して研究されてきたが、近年一つの統合した分野として確立されつつある。RNAファミリー配列の設計においても、mRNA同様、オリゴライブラリ合成と次世代シークエンサー(NGS)を用いた大規模並列的な活性測定によって、生成配列の実験検証が可能になっている。また、LiらによるtRNA変異体の活性測定に始まり[53]、Yokobayashiグループ[54, 55, 56, 57, 58, 59]やHaydenグループ[60, 61, 62, 63]等によるリボザイム等の変異体ライブラリの活性測定(deep mutational scanning)データの蓄積も進んでおり、これを用いた生成モデルのベンチマークも構築されつつある[64]。これを踏まえて本章では、RNAファミリー配列の生成モデルとその成果について概説する(図3)。

図3:RNAファミリー配列の学習と新規配列生成

RNAバイオインフォマティクスでは、RNAの配列と二次構造を同時に記述する道具としてContext Free Grammar(CFG)がしばしば用いられる[65, 66, 67, 68, 69]。CFGは二次構造予測の文脈でよく用いられてきたが、マルコフモデルであるために高次相関のある配列の生成には向かない。さらに、CFGにVAEを組み合わせ高次相関を再現する生成モデルのGrammarVAE[70]が知られるが、このGrammarVAEをそのままRNA配列と二次構造の同時生成に使用すると、逐次的に構文木を構成するために、全体として最適な構文木を再構成できるとは限らず、しばしば生成に間違いが存在してしまう。そこでSumiらはRNAファミリー配列の生成モデルを構築するために、RNAファミリーがCovariance Model(CM)あるいはprofile SCFGと呼ばれるコンセンサス構造を記述するCFGによって記述・分類されることに着目し、VAEのエンコーダーとデコーダーにCMを用いたRfamGenを提案した。RfamGenは、CMを用いることで構文木の再構成の際に大きな誤りを生じないようになっている。RfamGenは複数の自己切断型リボザイムの実験的検証に成功し、glmSリボザイムを用いた大規模並列実験に関してはほぼ100%に近い設計成功率を示した。加えて、deep mutational scanningのデータを用いたゼロショット予測のベンチマークも報告している。

この他にVAEを用いたRNAファミリー配列生成モデルとして、TeraiとAsaiによるRNAggがある[71]。RfamGenでは、CMを考慮することで構文木の再構成に制限を設けていたが、この制限により複数の構造を考慮することができなかった。そこでTeraiとAsaiは、RNA構造を記述する拡張CFGと動的計画法によるmaximum score decodingという生成手法を開発し、VAEが出力した拡張CFGのスコア行列に対してmaximum score decodingを用いることで最適な構文木を再構成して配列生成をする手法を提案した。これによりRNAggは、特定の二次構造に理論的に制約されることなく多様な二次構造の学習が可能になり、生成配列の多様化に成功した。

この他、Direct Coupling Analysis(DCA)[63, 72, 73]や制限ボルツマンマシン(RBM)[74]を用いたMSAの学習によるRNAファミリー配列生成も試みられており、一定の成功を示している。例えばCalvaneseらによる研究では、RNA二次構造は相互作用が疎であることに注目し、疎な結合のモデリングを行うEdge Activation Direct Coupling Analysis(eaDCA)というDCAを提案した。これにより、必要最小限のパラメタ数で必要な統計的相互作用をモデリングすることが可能である。そこでCalvaneseらは、eaDCAをtRNAに適用し新規tRNA生成を行い、実験検証としてSHAPE-MaPという二次構造を調べる実験の結果、生成tRNAの二次構造が天然tRNA様であったことを報告している。また、Fernandez-de-Cossio-DiazらによるRBMの研究では、SAM-Iリボスイッチの設計を行った。実験検証としてSAM-Iリボスイッチにリガンドを添加しその構造変化をSHAPE-MaPを用いて検証した。その結果、30%程度の設計成功率を報告している。

これらの機械学習を用いたRNA生成はデータ駆動的であるため、熱力学的安定性を考慮することができない。つまり、機械学習によって生成される配列はデータの分布を模倣するが、その配列が意図したRNAファミリーとして機能するような構造を熱力学的に形成する保証はない。そこでLambertらはPotts modelからサンプリングをする際に、生成確率と熱力学的な構造予測を組み合わせたメトロポリス法を採用した配列生成モデルDCA-SBを提案した。これにより、学習データの統計を超えた配列生成が可能になっただけでなく、熱力学的に安定な機能構造の生成が誘導可能になった。そこでLambertは、DCA-SBを用いてgroup I intronの生成に取り組んだところ、DCA-SBが他のモデルと比べて野生型からの距離が遠い配列でありながら活性を保つ変異体の生成を行うことを報告している。また、MSAに依存しないRNAファミリー配列生成の試みも存在し、SunらによるRfamllama[75]は、llama[76]にRfamデータベースを学習させたモデルである。これにより、アライメントや二次構造に制約されない新規RNAファミリー配列生成が可能な枠組みとなっているが、生成配列の品質は検証されておらず今後の発展が待たれる。また、RNACG[77]ではフローマッチングを用いてRNAファミリー配列の生成に取り組み、RfamGenと類似した性能を報告している。

モデルの改善やdeep mutational scanningのゼロショット予測などの評価指標の導入により、様々な手法によってRNAファミリー配列の生成モデルの開発は進んでいる。今後の課題としては、更なる評価指標の導入や生成配列の大規模な実験検証は必須だと思われる。加えて、Rfamデータベースなどのデータベースはしばしば十分な深さのMSAを持っていない点があげられる。そのため、今後のデータ拡充を待つとともに、DCA-SBが示した様な、データ駆動型設計のみに依存しない熱力学的な配列設計も重要かもしれない。

5.RNAアプタマーの設計

RNAアプタマーとは、特定のリガンドに結合するRNAである。言わば抗体のRNA版として、医療応用が期待されており、加齢性黄斑変性に対するペガプタニブなど幾つかのRNAアプタマーが実際に上市されている。このようなRNAアプタマーは通常、Systematic Evolution of Ligands by EXponential enrichment(SELEX)と呼ばれる試験管内選択法によって獲得される。このSELEXとは、ランダム配列から選抜実験と増幅の実験ラウンドを繰り返すことで、最終的に目的の選択性を有する配列を取得する実験である。SELEXは1990年にTuerkとGold, ElligntonとSzostakによってほぼ同時期に発表された[78, 79]。その後NGSの発展により、配列の選抜プロセスが詳細に観察できるようになり、得られた大規模な配列情報を解析するためのバイオインフォマティクス手法が発展してきた(図4)。特に本章ではそのような配列情報を元に完全に新規な配列を生成する手法について概説する。SELEX解析のためのバイオインフォマティクスツール全体に対してはSunらの総説[80]が大変詳しいため、そちらを参照すると良い。

図4:SELEXによる試験管内選択とその応用(アプタマーの例)

NGSで得られた配列を学習し生成モデルにより配列生成を行うアプローチはIwanoらによる報告が最初である[81]。Iwanoらはprofile HMMとVAEを組み合わせたRaptGenを提案した。RaptGenにより配列を低次元潜在空間に埋め込み、実験検証を繰り返して潜在空間でベイズ最適化を行うことで、学習データの配列よりも高活性な配列の生成に成功している。後続研究では、AdachiらがRaptGenを用いて、SARS-CoV-2ウイルスのスパイクタンパク質に結合する高活性のアプタマーの取得にも成功している[82]。また、DNAアプタマーを対象としているが、ほぼ同時期にDi Gioacchinoらによっても生成モデルによるアプタマー生成が提案されている[83]。Di Gioacchinoらは、抗凝固剤と期待される、トロンビン結合アプタマー候補のSELEXデータをRBMで学習させている。ギブスサンプリングを用いて配列生成を行い、実験的に結合活性のある新規配列を93%の成功率で生成している。さらにDi Gioacchinoらは、早期SELEXラウンドで学習させたRBMが計算する配列尤度が後期ラウンドにおける濃縮と相関することも報告している。これにより、高スコア配列を選択的に生成することが可能となっている。RaptGenを活用したAptaDiffという手法も報告されている[84]。これは、RaptGenをモチーフの学習器として使用し、RaptGenにおける配列の低次元埋め込みを条件として用いた条件付き拡散モデルを学習させている。配列生成を拡散モデルにすることで、学習データと近い特徴とより高い活性を両立させる配列の生成に成功している。RaptGenでは実験による実測を用いたベイズ最適化を提案していたが、DAPTEV[85]ではドッキングシミュレーションのスコアを用いた潜在空間の探索によるアプタマー設計方法を提案している。DAPTEVではシミュレーションにより試行回数を増やすことができ、最終的にSARS-CoV-2スパイクタンパク質に対してドッキングスコアの良い多くのアプタマー候補配列の発見を報告している。また、GANを用いたアプローチもあり、OzdenらによるRNAGENでは、GANでタンパク質結合RNAの生成を行っている[86]。このモデルは前述のUTRGANとほぼ同一である。RNAGENは、piRNAを学習させたGANとRBP結合予測モデルのDeepBindを組み合わせている。これにより、SOX2に結合する配列の生成に成功したことを報告している。言語モデルを用いたRNAアプタマー生成モデルとしてはAptaGPT[87]が挙げられる。AptaGPTはSELEXの早期配列情報を学習させ、配列フィルタリングと組み合わせることで、後期ラウンドの上位配列よりも高いドッキングスコアを示す配列の発見に成功している。

単一標的に対するSELEXデータを学習させるのではなく、一般的なタンパク質とアプタマーの結合予測モデルを作成し、モンテカルロ木探索(MCTS)によって配列設計するという流れも存在する。代表的なものとしては、Apta-MCTS[88]、AptaTrans[89]やAptaBLE[90]が挙げられる。これらの手法で作成されるモデルは、SELEXデータの学習とは異なり、既存の標的タンパク質とアプタマー配列を大規模に学習し、結合の有無を予測するモデルである。そして、その結合予測モデルを用いてMCTSでより結合するアプタマー候補配列を設計するという流れになる。特に近年、複数企業が大規模な自社データを学習させた予測モデルを発表しており、Atom Bioworks社のAptaBLE[90]やDianox社のAptaBERTが報告されている[91]。

配列の機械学習とは異なるアプローチとして、立体構造の逆フォールディングを用いたRNAアプタマーの生成の試みも存在する。Wongらは、RNA立体構造に基づきその制約のもとで配列を設計するRhoDesignという手法を提案し[92]、応用例としてMangoアプタマーという低分子に対するRNAアプタマーの設計を試みた。RhoDesignは立体構造が解かれている必要があるものの、SELEXの実験結果に依存しない配列生成が可能である点で他の手法とは異なる。実際RhoDesignは、そこまで活性や設計成功率は高くないものの、RaptGenと比較して既知Mangoアプタマー配列とは遠い配列生成に成功している。また、HuangとZhangらによる研究[93]でも、Broccoli/PepperアプタマーというMangoアプタマーに類似の蛍光アプタマーに対し、RhoDesignによる逆フォールディングと言語モデルを用いた配列スコアリングを統合した変異体生成を行っており、初期配列より蛍光強度の高い配列獲得の成功を報告している。

機械学習によるRNAアプタマーの設計は、まだ報告が少なく発展途上である。分野の課題としては、各論文における検証データサイズの小ささが挙げられる。このため、使用する検証データによって報告するパフォーマンス指標が大きく異なる事態が発生している[94, 95]。これは、SELEXやその検証には標的タンパク質などのマテリアルが必要であり、実験検証のコストが大きいため、普通の規模の研究室であれば自前SELEXデータによる小規模な実証に留まらざるを得ないのだろう。UTexas Aptamer Database[96]などアプタマー情報のデータベースは整備されつつあるが、モデルの検証を念頭においたより広範なデータセット整備が引き続き望まれる。

6.汎用的なモデルを用いた配列設計

各論的なRNA設計ではなく、大規模データで学習され多様な下流タスクを統一的に解く基盤モデル的なアプローチも存在する。これは、事前に大量のRNAの情報をモデルに学習させることで、様々な特徴を学習し、予測や生成などRNAの関与するタスクの性能向上を目指す試みである。近年多くのRNA基盤モデルが発表されているが、考え方はおおよそ共通であるため、いくつか代表的な研究を紹介する。より詳細に関しては、各基盤モデルを比較したWangらによる総説を参照されたい[97]。

このRNA言語モデルの先駆けは、AkiyamaとSakakibaraによる言語モデルを使ったRNABERTである[98]。RNABERTでは、BERTの事前学習方法であるMasked Language Modeling(MLM)に加え、Structural Alignment Learning(SAL)という構造アライメントの事前学習方法を提案することで、構造情報を加味した塩基埋め込みを実現している。その後、データとモデル規模を拡大させたRNA-FMがChenらにより発表され[92, 99]、後続研究でよく利用されている。スケーリング則に則ったモデルとデータの拡大は続いており、PenićらはRNA-FMよりも1桁ほど大きいパラメータ規模を持つ基盤モデルRiNALMoを最近報告した[100]。RiNALMoでは、RNAcentralやNTデータベースなど複数のデータベースを統合した学習データを作成し、33層のBERTモデルを学習させている。その結果、これまで汎化が難しいとされてきたRNA二次構造予測タスクを含めた様々なタスクで良好な成績を示している。この他、翻訳効率予測やスプライスサイト予測などベンチマークのタスクが整備されてきたことにより、上記のほかAIDO.RNA[101]、RNAGenesis[102]、Uni-RNA[103]、ERNIE-RNA[104]、RNAErnie[105]、DGRNA[106]、structRFM[107]、RNA-km[108]、MP-RNA[109]、LucaOne[110]、ProtRNA[111]、BiRNA-BERT[109]、RESM[112]などのRNA基盤モデルが提案されており、開発競争はますます激化している。基盤モデルを用いた応用に関しては、RNAdiffusion[113]やRhoFold[114]、NA-MPNN[115]などRNA-FMが採用されている研究が多いが、最近の基盤モデルは様々な下流タスクでRNA-FMよりも良い性能を示すため、新しい基盤モデルを活用したRNA設計も近い将来出現すると思われる。

上述の基盤モデルの多くはBERTというアーキテクチャに基づいたものが多かったが、生成に特化したモデルも存在する。Preferred Networks社のZhaoらにより、Generative Pre-trained Transformer(GPT)モデルを用いたncRNA生成モデルGenerRNAが発表されている[116]。GenerRNAもRNAcentralを用いて学習されており、学習データに近い分布の配列生成が可能となっている。Zhaoらはさらに Cross-linking and immunoprecipitation(CLIP)[117]やRNACompete[118]のデータを用いてGenerRNAのファインチューニングを行い、タンパク質結合性RNAの選択的生成を報告している。また、Cateらのグループは、RNAファミリーの新規データGARNETを構築し、GARNETを学習させたGPTモデルを作成している[119]。GARNETは配列情報に加え、対応する生物の至適生育温度の情報が付加されている。そこで、高熱生物由来の23Sリボソームでファインチューンしたモデルを用いて、高熱耐性23Sリボソームの生成に成功している。また、5′UTRの章で紹介したRNAdiffusion[113]も、拡散モデルを用いたモデルであるが、活性予測モデルを変更さえすれば5′UTR以外の多様なRNA配列の設計に活用することが可能である。

7.RNA立体構造に基づいた設計

RNA設計は長らく配列と二次構造を扱うものが主流だったが、タンパク質における立体構造の機械学習が大きな成功を示してから、RNAの立体構造の設計も出現しつつある。RNA立体構造の設計に関しては、立体構造のRNA逆フォールディングと、配列と構造の同時生成のアプローチがよく研究されている。そこで本章では、これら2つのアプローチに関して簡単に紹介する。

立体構造のRNA逆フォールディングとは、リン酸骨格の主鎖構造が与えられた時に塩基を推定する問題である。RDesign[120]をはじめ、gRNAde[121]、RiboDiffusion[122]、RIdiffusion[123]、R3Design[124]、RhoDesign[92]、AlignIF[125]、NA-MPNN[115]などが急速に開発されている。RDesignは逆フォールディングの初期の研究で、糖骨格原子の幾何的特徴のグラフ表現とMessage Passing Neural Network(MPNN)を用いて、近い構造や摂動に対する幾何的類似性を考慮した埋め込みを作成し、データ効率的な逆フォールディングを行うモデルである。また、RDesignは最初期の研究であるため、ベンチマークデータセットの構築も行っている。後続のJoshiらによるgRNAdeも初期の研究であり、gRNAdeはGraph Neural Network(GNN)を用いている。gRNAdeは、RosettaやRDesignよりも高い、立体構造からの配列の回復率の報告や、多状態入力への拡張、リボザイムを用いたゼロショットの実験結果予測を実施している。WongらによるRhoDesignは、RNAアプタマーの章で述べた様に、Mangoアプタマーという蛍光RNAの主鎖構造から逆フォールディングを行い、Mangoアプタマーの変異体の作成に実験的に成功している。Ribodiffusionは、粗視化骨格の原子構造をGNNで埋め込み、拡散モデルで塩基配列を取得するモデルである。RIdiffusionは、原子構造をGNNを用いた双曲空間への埋め込みと拡散モデルを組み合わせて配列を決定するモデルである。RIdiffusionは双曲埋め込みによって高いデータ効率性を達成しており、RibodiffusionやRhoDesignと同程度の性能を示している。また、最近発表されたAlignIFは、立体構造の多重アライメントを使用し、その構造的保存性を用いた配列予測を行うモデルである。これにより、AlignIFは他のモデル(RDesign, gRNAde, Ribodiffusioin, RhoDesign)よりも高い多様性と高い配列再現率を同時に達成している。

立体構造に基づく生成に関しては、主にフローマッチングの流れでRiboFlow[126]、RNA-EFM[127]、RNAFlow[128]、RNA-FRAMEFLOW[129]が報告されている。RNA-FRAMEFLOWは、主鎖構造を生成するモデルで、立体構造の逆フォールディングと合わせて完全な立体構造を設計する運用となっている。RNAFlowはタンパク質構造で条件付けされたRNA立体構造生成モデルであり、逆フォールディングとRosettaFold2NAをフローマッチングに組み込むことで最終的な複合体構造を生成するモデルになっている[128]。RNA-EFMもタンパク質条件付けされた配列と立体構造のフローマッチングで、物理エネルギーを考慮している[127]。RiboFlowは、低分子で条件付けされた配列と構造の同時生成モデルである[126]。RiboFlowでは著者がPDBからRNA-低分子複合体のデータを収集したRiboBindを独自に整備し学習に使用している。生成複合体構造はリガンド結合ツールを用いた評価を行っている。

上述のように、様々なRNA立体構造に基づく配列設計手法が提案されているが、このような設計はRosettaFold2NAやAlphaFold3などの立体構造の学習が上手くいっているという考えに根ざしているように思われる。RNA立体構造予測のツールは複数発表されているが、既知RNA構造のデータの少なさから過学習が指摘されており、CASP16のRNA部門における総括でも[130]、深層学習を用いたRNA立体構造予測は現状古典手法の精度に達していない。現状、ヘリックス部分や大まかな構造に関してはフラグメントアセンブリなどの古典手法でも十分把握することができるものの、マルチブランチループなど既知RNA構造を参照しにくい部分や状態数が多い部分の構造決定はいまだに困難であるようだ。適切な学習のための非冗長データセットRNA3DB[131]の整備など基盤構築は進んでいるものの、いずれにせよ学習データ数の不足が更なる精度向上の大きな課題であると言える。

8.RNA設計の応用

本章では機械学習を用いた具体的なRNA設計問題について代表的な研究について議論する。RNA設計はRNA工学の分野でよく問題になる。多くの場合RNA工学とは、完全にあるいは一部人工的な機能を人間が事前に設計し、その機能が達成される様に配列改変を加えるプロセスである。代表的なRNA工学の成果として、toehold switch[132, 133, 134]やアプタザイム[60, 135, 136, 137, 138, 139]開発が挙げられる(図5)。RNA工学におけるこれら人工の機能性RNAは従来まで、実験あるいは合理的設計と呼ばれるヒューリスティクスのみによって開発されていたが、近年実験データの機械学習により効率的な配列探索が可能になりつつある。そこで本章では、RNA設計の具体例としてこの2つの例を簡単に説明し、機械学習によるRNA設計の応用展開について議論する。

図5:Toehold switchとアプタザイムの概念図

Toehold switchは、Collinsグループによって開発されたriboregulatorであり[134]、RNA-RNA相互作用を利用して構造変化を誘導し下流の翻訳を開始させる。これによって翻訳トリガーとなるRNAのバイオセンサーとして働くことが可能である。従来NUPACK[140]などの熱力学モデルを用いた鎖置換のモデリングを行いtoehold switchの設計をしていたが、toehold switchの入力に対する応答性の予測性能が低く、計算機的な設計には限界があった。そこで、Angenent-MariらとValeriらは同時期にtoehold switchの設計指針確立のために機械学習を用いた研究を発表した[132, 133]。両者はtoehold switchのMPRAを行い、数十万配列程度のtoehold switchの応答性データを取得し機械学習研究を展開した。Angenent-Mariらの研究では、予測モデルの構築とその解釈性に重きを置き、トリガー存在下における翻訳強度やトリガー非存在下における翻訳抑制の強度に関する解釈可能な設計指針を得ることに成功している。Valeriらの研究でも類似した大規模実験を行い、その結果を学習させたNuSpeak/STORMという2つの深層学習モデルを構築し、精度の高いtoehold switchのランキングや設計を可能にした。これを用いて、SARS-CoV-2やZikaウイルスに対するRNAバイオセンサーを設計し大幅な性能改善を示している。

Toehold switchの他にもアプタザイムの例も挙げられる。アプタザイム(aptazyme)とは、特定のリガンドに結合するアプタマー(aptamer)と触媒活性を持つリボザイム(ribozyme)が融合した人工RNAであり、リガンド結合誘導的にリボザイムの機能制御が行われる。ほぼ全ての場合において、ハンマーヘッドリボザイムと呼ばれる自己切断型リボザイムが題材にされ、リガンド誘導的なmRNA分解システムなどに応用されてきた。アプタザイム探索実験では、ループ領域のランダム化やアプタマーとリボザイムの接続部位のランダム化のライブラリが用意され、細胞内でアプタザイムとして応答する配列が選抜される。しかし、実験によって常に良いものが発見されるとは限らない上に、一般的なアプタザイム設計原理などは明らかでなく、実用的なアプタザイム発見の成否は実験的発見に大きく依存していた。そこでSchmidtとSmolkeは、この問題を解決するべく、低分子リガンド応答するアプタザイムのスクリーニングを実施し、そのデータからアプタザイムとしての応答性を予測する機械学習モデルを構築した[139]。その結果、アプタザイムの設計指針の構築に成功しており、上位配列を少数選択して実験するだけで高活性アプタザイムの発見に寄与できることを示している。

Toehold switchとアプタザイムを例に取り、機械学習を用いたRNA設計の実用例について述べた。これら以外にもRNA工学研究が多々存在するが、その多くは機械学習との融合には至っていない。上記の例で見られた様に、ルールベースの設計には多くの場合、定量性に限界があり、機械学習による体系的なアプローチは実験負荷を大幅に減少させられる点は魅力的である。しかし、近年大規模なRNA活性データの取得が可能になってきたとは言え、やはり大規模データ取得のコストは比較的高い。また、機械学習に耐えうる質のデータを得るための慎重な実験設計も求められる。この点、アプタザイムの様な野生型配列から派生した人工RNAの設計は、野生型配列の情報を利活用することで、大規模な実験データを必要とせずに効率的な設計が将来的に可能になるかもしれない。

9.まとめ

本総説では機械学習を用いたRNA設計に関して、いくつかのテーマごとに代表的な研究を挙げて解説してきた。著者の予想を遥かに超えるスピードでどのテーマもこの1,2年に劇的な発展を遂げており、本総説もすぐに古くなると思われる。この分野に興味がある読者は本総説で取り上げた論文やより直近の文献を読んでみると良いと思う。

今度の研究の発展としては、RNA配列・構造データや実験的な活性情報の蓄積がやはり重要であると考えられる。各章で繰り返し述べたように、学習データやベンチマーク整備がまだ不十分であり、この点がタンパク質における機械学習研究との大きな違いである。加えて、設計配列のMPRAなどによる大規模な実験検証は、ベンチマークデータ構築の観点からも非常に重要である。学習データ不足に関しては、Zhouグループによって、NTデータベースの20倍、RNAcentralの60倍という巨大なRNAファミリーデータベースMARS[141]が構築されるなどの動きはある。しかし、AIDO.RNAの研究では、MARSを学習してもRNAcentralよりも性能が劣っているため、MARSのデータ品質に疑問が呈されており[101]、改善の余地があるようだ。RNA用のベンチマークデータRNAGymも最近になり整備されてきたが[64]、タンパク質のProteinGymと比べると[142]、deep mutational scanningだけでも何十倍ものデータ量の開きがある。また、多くの基盤モデルで評価されているMRL予測も本総説で議論した通り、データの偏りが指摘されている。この他にも、RNAの立体構造の圧倒的な数の少なさ、特に高分解能の立体構造の少なさ、MSAの多様性の低さなどが挙げられており、急な改善は難しいと考えられている[143]。たとえば、本総説で何度か出てきたRfamデータベースは4,000種類以上のMSAが登録されているが、その4割はmicroRNAであるし、配列数の少ないMSAも多い[52]。とはいえ、実験情報の取り込みやマルチモーダル化などアルゴリズムの改善により、性能向上の可能性は十分にあると考えられる。また、今回は述べなかったが、Evo/Evo2[144, 145]に代表される様にゲノム言語モデルによってRNA含めた全てのゲノム文脈を学習すると言う試みも存在し、RNAのdeep mutational scanningのゼロショット予測もある程度できるため、このアプローチも有効なのかもしれない。

最後に個人的なことだが、著者はRNA(synthetic)biologistであるため、本総説で述べた様な手法がウェット実験に応用展開されることに興味がある。特に著者が関連するRNA工学では、RNAバイオインフォマティクス的アプローチが十分に浸透しているとはあまり言えず、大きな展開の余地があると思っている。RNA研究全体において、今後、実験と計算を密に融合した発想に基づく研究の重要性はますます大きくなるだろう。この他期待することは色々あるが、究極的には、計算機が所望のRNAを設計してくれ、RNAワールド仮説[146]の様な心踊る想像、あるいは想像を超える様なRNAを実現してくれる時代が来ることを著者は待望している。

References
著者略歴

角 俊輔
2024年、京都大学大学院医学研究科博士課程修了。博士(医学)。同年より、東京大学定量生命科学研究所に在籍。計算や実験を使って新しいRNAを発見したいと思っている。趣味は散歩と囲碁と寺社仏閣巡り。

 
© 2025 日本バイオインフォマティクス学会

This article is licensed under a Creative Commons [Attribution-NonCommercial-ShareAlike 4.0 International] license.
https://creativecommons.org/licenses/by-nc-sa/4.0/
feedback
Top