JSBi Bioinformatics Review
Online ISSN : 2435-7022
Primers
COVID-19パンデミック下におけるウイルスゲノム疫学の発展
川崎 純菜 伊東 潤平
著者情報
ジャーナル オープンアクセス HTML

2023 年 4 巻 1 号 p. 10-25

詳細
Abstract

ウイルスゲノム疫学とは、ウイルスのゲノム配列情報を用いて感染症の流行動態や伝播経路を把握することで、感染症の制御を目指す分野である。COVID-19パンデミック下において、前例のない規模でゲノム疫学調査が実施されるようになった。このような大規模調査により、ウイルスゲノム配列をリアルタイムにモニタリングすることが可能となり、公衆衛生上リスクの高いウイルス変異株の早期捕捉や、ウイルスの適応度の上昇に寄与するゲノム変異の探索が可能となった。本稿ではまずCOVID-19パンデミック下におけるウイルスゲノム疫学の発展について概説し、さらに今後も発生し続けると予想されるウイルス感染症に備えるための課題と展望について議論する。本稿がウイルス学と生命情報科学との新たな融合研究のきっかけになれば幸いである。

1.はじめに

人類は様々な感染症と戦ってきた。特に、これまでに世界保健機関(WHO)が宣言した「国際的に懸念される公衆衛生上の緊急事態(PHEIC)」の全てがウイルス感染症であり、人類がウイルスの脅威に晒され続けてきたことがわかる[1]。さらに2019年12月には、呼吸器症状を主徴とする新型コロナウイルス感染症(COVID-19)の原因ウイルスであるSARS-CoV-2が出現し、世界的流行へと発展した。COVID-19もPHEICに指定されており、本稿執筆時(2023年2月)には6.7億人以上の感染者と680万人以上の死者が報告され(https://covid19.who.int/)、初発から3年が経過した現在でも収束の目処は立っていない(図1A)。

図1:COVID-19パンデミック下における変遷

A:COVID-19初発から現在までの世界的な動き。

B:GISAIDにおけるSARS-CoV-2ゲノム配列登録数の推移。作図にはGISAID(https://www.gisaid.org)に登録されているSARS-CoV-2ゲノム配列データを使用した。

C:変異株の流行動態。図は2019年12月から2023年2月までにGISAIDに登録されたSARS-CoV-2ゲノム配列を使用して、Nextstrainによって作成されたものである[51, 52]。系統名はNextstrainによる分類に基づいており、括弧内に示される分類はVOC、VOI、またはSUMに対応している。

病原体のゲノム配列情報を用いた疫学調査(ゲノム疫学調査)は、主に感染症の流行動態や伝播経路の把握、および病原体の進化過程の追跡を目的として行われてきた。COVID-19パンデミック下においては、前例のない規模でゲノム疫学調査が実施されるようになったが[2]、これはパンデミックの超初期からウイルスゲノムを標的としたアンプリコンシークエンシングキットの開発や次世代シークエンサーの整備により、患者検体由来のSARS-CoV-2のゲノム配列を世界各地でリアルタイムに取得する体制が構築されたためである。同定されたウイルスゲノム配列は、Global Initiative on Sharing Avian Influenza Data(GISAID: https://gisaid.org/)といったデータベース上で公開されており、本稿執筆時点で1,500万を超えるSARS-CoV-2配列が登録されている(図1B)。こうしたデータベースにはウイルスの塩基配列情報だけでなく、疫学調査の要となる採取日や採取地域といった情報も登録されており、利用申請を行えば誰でもデータを取得・解析可能である(ただし、データの利用および解析結果の公開に関してはいくつかの制約がある;https://gisaid.org/about-us/acknowledgements/)。

本稿では、COVID-19パンデミック下におけるゲノム疫学研究の潮流を概説することで、ウイルスゲノム疫学研究に生命情報科学がどのように貢献してきたかを紹介する。また将来のウイルス感染症に備えるための基盤技術についても議論し、ウイルス学と生命情報科学とのさらなる融合を促進したいと考える。

2.ウイルスの多様化を追跡する

大規模なゲノム疫学調査の功績として、ウイルス「変異株」の出現と伝播をリアルタイムに追跡可能になったことが挙げられる。ウイルスのゲノム配列は突然変異や組換えによって絶えず変化し続けている。こうしたゲノム変化の大半はウイルスの性質に影響を及ぼさない一方で、一部のゲノム変化は感染性や病原性、抗原性といったウイルスの性質を変化させることがある。こうしたゲノム変化により、それまでに流行していた従来型ウイルスよりも高い適応度を獲得したウイルスが出現すると、新たな流行が引き起される(ここでの「適応度」とは「ウイルスがどれだけ多くの子孫を残せるか、つまり宿主集団内でどれだけ感染を広げることができるか」を示す指標(詳細は用語解説))。したがって、適応度の高いウイルス変異株の出現をモニタリングすることは、公衆衛生上リスクの高いウイルスの早期検出につながる。

COVID-19パンデミックの初期に発見されたウイルス変異株には、スパイクタンパク質の614番目のアミノ酸がアスパラギン酸(D)からグリシン(G)へと変化したD614G変異株がある[3](図1A図2)。この変異株は2020年1月末にヨーロッパで検出され、瞬く間に世界中へと広がった。驚くべきことに、同年3月には世界各地で採取されたSARS-CoV-2配列の約99%で614G変異が確認されており、約2ヶ月で従来型ウイルスを淘汰してしまった。このような流行株の置き換わりは、変異株(614G)が従来株(614D)よりも高い適応度を持っていたことに起因する。実際、細胞株や実験動物を用いたウイルス学的実験により、D614G変異は感染受容体であるアンジオテンシン変換酵素2(ACE2)との結合親和性や上部気道でのウイルス増殖効率に寄与することが明らかとなり、このような性質変化が感染拡大の一因となった可能性が報告されている[4, 5, 6]。

図2:SARS-CoV-2のゲノム配列とウイルス粒子構造

BioRender.com(https://app.biorender.com/biorender-templates)で公開されている「Genome Organization of SARS-CoV」および「Human Coronavirus Structure」を元に作図した。SARS-CoV-2のスパイクタンパク質は感染受容体であるACE2との結合を担うだけでなく、液性免疫の主要なターゲットとなるため、ウイルスの適応度に大きく関係する(詳細は本文を参照)。

D614G変異株の出現以降、公衆衛生上リスクの高い変異株を重点的に監視するために、懸念すべき変異株(Variant of Concern: VOC)、注目すべき変異株(Variant of Interest: VOI)、および監視下のオミクロン亜株(Subvariants under monitoring: SUM)の分類が行われるようになった。特にVOCは、(i)感染性の増加、(ii)疾患の重症化、(iii)診断法やワクチン・治療薬の有効性の低下といった3つの性質のうち、いずれかを示す変異株のことを指す[7]。現時点までにWHOは、アルファ、ベータ、ガンマ、デルタ、オミクロンといった5つのVOCを指定してきた(図1C)。(ただしこのシステムでは、本稿執筆時に世界的流行を引き起こしているオミクロン株の多様性を反映できていないことが指摘されており、進化学的・疫学的指標に基づく新たな分類・命名方法への移行が提案されている[8]。)

ウイルス変異株の分類における生命情報学上の課題は、膨大な数のゲノム配列を用いた系統解析にある。COVID-19パンデミック下においては、日々蓄積され続けるウイルスゲノム配列に「変異株」というラベルを迅速に割り当てる必要があるが、膨大な数のウイルス配列を用いた系統解析を実施し続けることは現実的ではない。この課題を解決するために、PangoではPhylogenetic Assignment of Named Global Outbreak Lineages(pangolin)という系統解析ツールを開発した[9]。このツールは、(i)SARS-CoV-2系統の暫定的な推定、(ii)マニュアルキュレーションによるウイルス系統の定義、(iii)機械学習モデルによる新規配列への変異株ラベルの割り当てという3つのステップから構成されている。2つ目のステップであるウイルス系統の定義では、全世界の研究者の意見をCoV-lineages(https://cov-lineages.org/)に集約し、新たなウイルス系統として分類するかを議論する。この系統解析ツールによって、GISAIDに登録されているSARS-CoV-2ゲノム配列の全てに「変異株」というラベルを割り当て、日々更新することが可能となった。

Pangolinは変異株を迅速に検出できるツールであるが、いくつかの課題が残されている。その1つとして、ウイルス系統の定義専門家のマニュアルキュレーションに依存している点が挙げられる。GISAIDデータベースには1日に1万件を超えるウイルスゲノム配列が登録されており、このような大量のウイルス配列をマニュアルで分類し続けることは非現実的である。こうした現状を打破するために、Pangoは自動的に系統を定義づけるヒューリスティックなアプローチを新たに提案している[10]。

3.ゲノム疫学データからウイルスの適応度を推定する

2章で述べたように、現在に至るまで様々なウイルス変異株が出現し、より適応度の高い変異株が世界的流行を引き起こしてきた(図1C)。このようなウイルス変異株の置き換わりは、各変異株の流行しやすさ(適応度)の差に従い進行することが知られている[11]。ウイルスの適応度を評価する指標として、実効再生産数(用語解説)がある。実効再生産数とは、「ある状況下において1人のウイルス感染者が平均して何人の二次感染者を発生させるか」を表す値である[12]。したがって、実効再生産数のモニタリングにより、ウイルス感染が拡大傾向にあるか、またどの程度の速度で拡大しうるかを推定することができる。

従来、実効再生産数は感染拡大指標として用いられてきた。しかし、COVID-19パンデミック下では様々なウイルス変異株が流行するなかで、変異株間の実効再生産数の比較によって「どの変異株が感染を拡大するリスクが高いか」を評価する指標としても使われるようになった。前述したように、ウイルス流行株の置き換わりは変異株間の実効再生産数の比に従い進行する[11]。したがって、ゲノム疫学調査データにおける流行変異株の頻度変化に基づき、変異株の(ウイルスの世代時間あたりの)置換速度をロジスティック回帰により推定すれば、変異株間の相対的な実効再生産数を推定することができる(図3A)。このとき、実効再生産数の相対値は「変異株Aの感染者が平均1人の二次感染者を生み出すとき、変異株Bの感染者が平均何人の二次感染者を生み出すか」という値と解釈できる。ただし、相対的な実効再生産数はウイルスの純粋な伝播力の違い(すなわち基本再生産数(用語解説))だけでなく、免疫逃避能等の違いも反映した値であることに注意が必要である。そのため本稿では実効再生産数を伝播力ではなく適応度(どの程度子孫を残し、感染を広げることができるかの指標)として取り扱う。また、この推定法では以下2つの仮定を置いていることに留意されたい:i)変異株間の実効再生産数の相対値は時間変化しないこと(実際にはヒト集団の免疫状態等が変化すると、変異株の相対的な適応度は変化すると考えられる)、ii)ウイルス世代時間は固定であり、各変異株の世代時間は同じであること(例えばデルタ株とオミクロン株の世代時間は異なることが知られている[13])。さらに、サンプリングバイアス(特定の感染クラスターから集中的にサンプリングされたり、より注目度の高い変異株が優先的に登録されたりすることに起因する)の影響により、適応度の過剰・過小推定が起こりうることにも注意が必要である。

図3:ウイルス変異株の実効再生産数の推定

A:各変異株の相対的な実効再生産数の推定方法。ゲノム疫学データを用いて、各変異株の相対的な検出頻度の変化率(傾きパラメータ)を多項ロジスティックモデルにより推定する。ウイルス世代時間当たりの変化率から、基準となる変異株の実効再生産数を1としたときの他の変異株の実効再生産数を算出できる。

B:ウイルス変異株ごとの適応度の比較。図はObemeyerらの論文[11]において公開されているデータ(CC BY 4.0)を元に作成した。今回は代表的なVOI変異株およびVOC変異株の適応度を、起源型の武漢株に対する相対値として示している。

ここではゲノム疫学データから変異株の適応度を推定した研究のうち、Obemeyerらによる網羅的な報告を紹介する[11]。この研究では、1,500以上のウイルス変異株の相対的な実効再生産数を推定した。このモデルでは前述のロジスティックモデルに代わり、多項ロジスティックモデルを使用することで、複数の変異株の相対的な実効再生産数を一度に推定した。Obemeyerらの研究には2つの重要な点がある:i)様々な変異株の適応度を比較することで、流行拡大の可能性が高い変異株をランク付けできるようになった点、ii)時間経過に伴い、より適応度の高い変異株が出現してきたことを示唆した点(図3B)。特に2点目に関しては、後に出現した変異株ほど液性免疫に対して高い逃避能を獲得しているというウイルス学的知見とも一致している[14]。ただし前述のように、流行株の置換速度に基づく実効再生産数の推定では「変異株間の実効再生産数の相対値は時間変化しない」という強い仮定を置いている。そのため、流行時期が大きく異なる株(例えば、祖先型である武漢株と現在流行しているオミクロン株)の実効再生産数を直接比較できるかについては疑問が残り、推定結果の解釈には注意を要する。

4.ウイルス適応度に対する変異の効果を推定する

3章では、ゲノム疫学データから変異株の適応度を推定可能であることを概説した。次なる課題はウイルス適応度の向上に寄与する変異の探索である。このような変異の同定は、ウイルスの適応度がどのような分子メカニズムで上昇したのかを解明する足がかりとなり、感染性や病原性の増悪因子の特定だけでなく、効果的なワクチン・治療薬の開発につながると期待される。また適応度に影響する変異情報をマーカーとして、公衆衛生上リスクの高い変異株を早期に検出することも可能になるだろう。

実は3章で紹介したObemeyerらのモデルは、実効再生産数の増加に寄与する変異を探索するためのモデル構造を含んでいる[11]。このモデルには、「各変異株の相対的な増殖速度はその変異株の持つアミノ酸変異の効果の線型結合に従い生成される」という仮定を表現するための階層構造が追加されている。この階層構造により、(i)各アミノ酸変異が適応度に与える効果と、(ii)各変異株の適応度を同時に推定することが可能となった。この研究では2,900個以上のアミノ酸変異の寄与度をゲノムワイドに推定し、スパイクタンパク質やヌクレオカプシドタンパク質のようなウイルス粒子を構成するタンパク質だけでなく、非構造タンパク質に存在する変異もウイルスの伝播力を向上させると推定された。こうした変異の中には、感染性や免疫逃避に関連する変異や[15]、ウイルスゲノムRNAの粒子内への取り込み効率の上昇に関与する変異が[16]含まれており、本手法の有用性を支持する結果である。Obemeyerらのモデルは、SARS-CoV-2の適応度の変化と遺伝型の変化を結びつけた点において重要な研究といえる。

Obemeyerらの研究により、変異株の適応度の推定だけでなく、適応度に貢献する変異を探索できるようになった。一方、このモデルにはいくつかの課題が残されている。1つ目には、このモデルでは変異の効果の単純な線型結合から実効再生産数を予測するため、学習データに含まれない変異の効果は予測に反映されない点がある(この課題に対する展望は7-2章で後述)。2つ目には、複数のアミノ酸変異の組み合わせ、すなわちエピスタシスの効果を考慮していない点がある。そのため最新の研究では、エピスタシスの効果を考慮したモデルも開発されており[17, 18]、例えばJankowiakらによる研究では、Obemeyerらのモデル式に交互作用項を導入してエピスタシスの効果を表現し、スパイクタンパク質におけるアミノ酸変異の組み合わせが適応度に与える影響を推定した[17]。この研究によりエピスタシスの中心として同定されたN501Y変異は、例えばQ498Rといった別の変異とともに感染受容体との結合親和性を相乗的に増強することが実験的に示されている[19]。このようなモデルは、ウイルス適応度の飛躍的向上に関わる分子メカニズムを理解する上で重要になると考えられる。

5.ウイルスの進化を理解する

相次ぐウイルス変異株の流行を経験するなかで、適応度の高い変異株はどのようにして出現してきたのかという疑問が湧いてくる。変異株の出現パターンを理解することができれば、次に出現しうるウイルス変異株を予測し、より効率的な感染症対策を講じることが可能となると期待される。この章では、COVID-19パンデミック下での変異株の出現パターンについて概説し、また現在流行しているオミクロン株の進化とその背後にある進化の原動力についての研究を紹介する。

5-1.新たなウイルス系統はどこで出現するのか?

SARS-CoV-2の系統解析により、VOCやVOIとして分類された変異株は、それぞれ異なる系統的起源から発生してきたこと(ただしデルタ株とカッパ株は同一起源)、特に現在世界中で猛威を奮っているオミクロン株は祖先型から50以上の変異を獲得していることが報告されている[20](図4)。対してオミクロン株の流行下では、BA.1からBA.5、BQ.1.1、XBBといった亜株が次々と出現してきており、同一系統内での多様化が進んでいる(図1C)。つまりSARS-CoV-2の進化は、i)異なる系統的起源を持つ変異株の台頭(断続的進化)、ii)変異株の中での連続的進化という2つのパターンによって形成されてきたと考えられる。

図4:SARS-CoV-2の多様化と変異株の出現

A:ウイルス変異株の系統関係。図は2019年12月から2023年2月までにGISAIDに登録されたSARS-CoV-2ゲノム配列を使用して、Nextstrainによって作成されたものである[51, 52]。系統名はNextstrainによる分類に基づいており、括弧内に示される分類はWHOによるVOC、VOI、またはSUMに対応している。

B:VOCを定義づけるアミノ酸変異。VOCの分類基準となる変異データについてはCoVariants(https://covariants.org/)から取得した。上段はスパイクタンパク質、下段はその他ウイルスタンパク質における変異を示す。各行はVOC分類に対応しており、括弧内にはPangolinによる系統分類が示されている。それぞれの変異に関するウイルス学的知見はOutbreak.info(https://outbreak.info/)に集約されている。

新たなウイルス変異株の出現に備えるには、ウイルスの断続的進化がどこで発生したのかを明らかにすることが重要と考えられる。現在、SARS-CoV-2の断続的進化については3つの仮説が提唱されている[21]。第一の仮説は、持続感染患者における新たな変異株の出現である[22]。特に免疫抑制状態の患者では感染が長期化する傾向があり、多様なウイルス配列が検出されている[23, 24, 25]。また、抗体医薬や回復者血清の投与といった治療を受けた患者では、中和抗体との親和性を下げるようなアミノ酸変異が報告されており[26, 27]、新たなウイルス変異株の出現につながる可能性が危惧されている。第二の仮説として、ゲノム配列のサンプリングが十分でない地域において起こった進化が見過ごされた結果、断続的に進化したように見える可能性が挙げられる。COVID-19パンデミック下では世界各地でウイルスゲノム配列を取得できる体制が整えられてきた。しかし採取される配列数には大きな地域差があり、ゲノム疫学調査が十分に行われていない地域におけるウイルス進化を見逃している可能性が指摘されている[28]。第三の仮説は、ヒト以外の動物における新たな変異株の出現である。SARS-CoV-2はヒトだけでなく多種多様な哺乳類に感染することが報告されている[29]。特にミンクやオジロジカでは、ヒトから動物へのウイルス伝播だけでなく、動物からヒトへのウイルス伝播も発生している[30, 31]。興味深いことに、オジロジカ集団においては以前ヒトで流行していた変異株(アルファ株、ガンマ株、デルタ株)の感染が未だに維持されていることが報告され、ヒト集団から一度消失した変異株が動物からのウイルス伝播を契機に、再びヒト集団で流行する危険性が示唆された[32]。動物からヒトへのウイルス伝播は頻発するイベントではないと想定されているが、One health(用語解説)の観点からも、動物におけるウイルス感染を注視していく必要があるだろう。

5-2.オミクロン株の進化パターンとその原動力

2022年前半までのSARS-CoV-2の流行は、より適応度の高い変異株が出現すると、その変異株が従来株に置き換わって流行するというシンプルなパターンに従っていた。しかし2022年後半に入り、オミクロン株の流行パターンは複雑な様相を示すようになった。具体的には、同程度に高い実効再生産数を示す変異株が世界各地で同時多発的に出現し、様々な変異株(以降、オミクロン亜株と称する)が混合して流行するようになった(図1C)。

重要なことに、オミクロン亜株のスパイクタンパク質には共通したアミノ酸変異が複数存在することが報告されており[33](図4B)、こうした変異は進化の過程で収斂的に獲得されてきたと考えられている(このような変異を以降「収斂変異」と呼ぶ)。こうした変異は、ウイルスの適応度を向上させるため様々なオミクロン亜株によって獲得されてきたと予想されるが、収斂変異と適応度との関係性は明らかでなかった。そこで本稿の著者の1人である伊東らは、オミクロン株のスパイクタンパク質における収斂進化を解析することで、オミクロン亜株の進化パターンの解明を試みた[34]。まず系統解析により、オミクロン株の系統樹上において収斂変異が獲得された枝を推定し、その獲得回数を数え上げた。そして、収斂変異がオミクロン系統、特に比較的若い系統(BA.4株およびBA.5株)において高頻度に獲得されていることを明らかにした(図5A:例としてBA.5株の結果を示す)。さらに前述のObemeyerらの統計モデリング手法[11]を改変し、スパイクタンパク質における変異がオミクロン亜株の適応度に与える影響を網羅的に推定した。この手法の主な特徴として、変異の組み合わせパターンに基づきウイルス系統を自動で分類するため、既存の分類体系(PANGO lineage等)に依存せず、適応度を推定可能であることが挙げられる。この解析により、i)収斂変異がウイルスの適応度を上昇させること(図5B)、ii)収斂変異を多く獲得した系統ほど高い適応度を示すこと、特に全ての収斂変異を獲得したBQ.1.1株は解析したオミクロン亜株の中で最も高い適応度を示すことを明らかにした(図5C)。さらにこの研究では、スパイクタンパク質におけるたった5箇所の収斂変異によってオミクロン株における適応度の分散の約80%を説明可能であることを示した(図5D)。これらの結果は、一見複雑に見えるオミクロン株の進化パターンが、実は比較的単純な法則に従っている可能性を示している。

図5:オミクロン株にみられる収斂進化

この図は伊東らの論文[34]の結果(CC BY 4.0)を一部改変したものである。

A:オミクロンBA.5株のスパイクタンパク質における収斂変異(R346X、K444X、L452X、N460X、F486X)の獲得。系統樹上の点は推定された変異獲得イベントを示している。L452RおよびF486V変異に関しては、BA.5株の共通祖先で既に獲得されていた。

B:各変異の実効再生産数に対する効果。収斂変異にはラベルが付いており、BQ.1.1株が持つ収斂変異は太字で示している。

C:スパイクタンパク質(S)ハプロタイプの相対的な実効再生産数。左のヒートマップは各Sハプロタイプにおける5つの収斂変異の有無を示す。

D:ゲノム疫学データにおける配列頻度から推定した相対的な実効再生産数と、5つの収斂変異のみに基づいて予測された実効再生産数との関連。

それでは、オミクロン株の進化の原動力(すなわち進化の背景にある選択圧)は何なのだろうか。SARS-CoV-2の適応度は主に、ウイルス自身の伝播力(基本再生産数)と免疫逃避能により決定される。特に、ワクチン接種と自然感染によって宿主集団が免疫を獲得した状況下では、液性免疫から逃避し、かつ感染受容体との結合能を損なわないようなスパイクタンパク質を持つ変異株が感染を広げると予想される。そこでCaoらは50種類のオミクロン亜株のスパイクタンパク質を合成し、その性状を網羅的に調査することで、オミクロン亜株の進化の原動力を解明しようと試みた[14]。その結果、前述の収斂変異はACE2との結合能を損なうことなく、液性免疫に対する逃避能を高めることを明らかにした。これらの結果は、ワクチン接種と自然感染によってヒト集団が獲得した液性免疫が、オミクロン亜株の収斂進化の原動力となったことを示唆している。Caoらの研究における重要性は、世界各地で同時多発的に出現した50種ものオミクロン亜株について、当時はどの株が流行拡大するか不明であったにも関わらず、網羅的に機能解析を行った点にある。これら変異株の中には、その後世界的流行株となったBQ.1.1株やXBB株が含まれており、こうした変異株の高い免疫逃避能を超早期に明らかにしたことは驚嘆に値する。なおCao博士はこの研究の功績を受け、2022年のNature's 10(Nature誌が選ぶ今年の10人)に選出されるに至った[35]。

6.ゲノム疫学調査とウイルス学的実験の連携:リアルタイムなウイルス性状解析のために

ウイルス学研究がパンデミックにおいて担うべき役割の1つは、相次ぎ出現する変異株の性質をリアルタイムに明らかにし、公衆衛生学的なリスクを評価することである。SARS-CoV-2変異株のリスクは、ゲノム疫学調査データから推定される(相対的な)実効再生産数だけでなく、免疫逃避能や治療薬抵抗性、病原性に基づき評価される。免疫逃避能に関しては中和試験(用語解説)、治療薬抵抗性に関してはウイルス感染実験(抗体医薬の場合は中和試験)により評価可能である。また病原性に関しては、モデル動物を用いた感染実験により評価する(しかし、モデル動物における病原性とヒトにおける病原性は必ずしも一致しない点には注意が必要である)。

言うまでもなく、こうした実験検証には多大な時間と労力を要する。そこで、ゲノム疫学調査に基づき実効再生産数の高い変異株(今後流行を拡大する可能性が高い変異株:次期流行株)を早期に発見することができれば、次期流行株が世界中に感染を拡大する前に、その性状を実験的に解明することが可能となるだろう。ここでは、次期流行株の早期検出とウイルス学的実験による性状解析の連携の例として、Genotype-to-Phenotype Japan(G2P-Japan)による研究成果を紹介する。G2P-JapanはSARS-CoV-2変異株の迅速な性状解析を目的に設立された日本発の研究コンソーシアムである。本コンソーシアム研究の一環として、本稿の著者の1人である伊東は、GISAIDに登録されたゲノム配列データから世界の各地で流行している変異株の実効再生産数を網羅的に推定することで、次期流行株の出現を監視するシステムを構築した[36]。さらにG2P-Japanでは、このシステムにより検出された次期流行株候補の性質を実験的に検証することで、相次ぎ出現したオミクロン亜株の性質(免疫逃避能、治療薬抵抗性、病原性等)を世界に先駆けて明らかにしてきた[36, 37, 38, 39]。G2P-Japanの取り組みは、リアルタイムなゲノム疫学調査体制により、流行している変異株の性質を流行の初期段階で(あるいは流行に先立って)評価可能になったことを実証した。

7.展望:生命情報科学が感染症研究にもたらしうるブレークスルー

COVID-19初発から3年が経過したが、未だ収束の目処は立っていない。加えて2022年にはMPox(サル痘からの名称移行が推奨されている[40])のアウトブレイクも報告され[41]、人類とウイルス感染症との戦いは今後も続くと見込まれる。この章では今後、生命情報科学がゲノム疫学調査を含め、感染症研究にもたらしうるブレークスルーについて議論したい。

7-1.持続可能な変異株監視システムの構築

COVID-19パンデミックは長期戦の様相を呈してきたが、新規変異株の出現はとどまることを知らない。相次ぎ出現する変異株を網羅的に、最速で、疲弊することなく監視し続けるためには、変異株の監視をデジタルトランスフォーメーション(DX)する必要がある。現在、変異株の監視は主に、i)新規変異株の同定(詳細は2章)、ii)実効再生産数の推定(詳細は3章)、iii)流行予測(ただし現状、流行曲線の高精度な予測は達成されていない)[42]といった3つのプロセスで構成される。これまでのゲノム疫学研究では、前述の3つのプロセスはそれぞれ独立に、かつ一部はマニュアルで行われてきた。例えば、3章で紹介した実効再生産数の推定には、前もってウイルス系統を定義づける(すなわち、どの単位で実行再生産数を推定するかを決定する)必要がある。しかし2章で紹介したように、新規変異株の定義は数名の専門家による議論に基づくマニュアル形式で行われてきた。したがって、変異株監視のDXを達成するためには、上記3つのプロセスをend-to-endかつ自動で行うシステムを開発することが重要である。5-2章で紹介した伊東らの手法は、変異パターンに基づくウイルスの自動分類と適応度推定によって、次期流行株候補を自動で抽出可能であるため、end-to-endシステム開発の足がかりになると期待される。

加えて、変異株監視システムの基盤であるゲノム配列データベースに関する課題も残されている。1章で紹介したように、GISAIDには大量のウイルス配列が登録され続けている一方で、配列の採取日や採取地域といった基礎的なメタデータ以外(例:感染者の臨床症状やワクチン接種歴など)はほとんど登録されていない現状がある。こうした情報が充実すれば、ウイルスの配列情報から形質情報を推定する重要なリソースとなるだろう[43]。また、持続可能なウイルスゲノム疫学調査のためには、配列登録者のインセンティブを考慮したデータベース整備・運営が重要だろう(配列公開のインセンティブにおける課題については[44]を参照されたい)。

7-2.配列からウイルスの適応度を予測し、進化をシミュレーションする

3章および5-2章で紹介したように、ウイルスの進化は適応度を上昇させるように進行しており、またSARS-CoV-2のスパイクタンパク質における変異はウイルスの適応度に強い影響を与えている。これらのデータは、ウイルスの適応度がウイルスの遺伝子配列(特にスパイク遺伝子)から一定の精度で予測可能であることを示唆している。遺伝子配列からウイルスの適応度が予測できれば、ウイルス配列が1つでも検出された時点で実効再生産数を評価できるようになる。さらに、適応度予測モデルと遺伝的アルゴリズム(用語解説)を組み合わせることでウイルス進化をシミュレーションすることが可能になるだろう。

ウイルスの適応度を配列情報から予測するには、2つのアプローチが考えられる。1つ目は、ゲノム疫学調査データから推定された適応度を目的変数とし、ウイルス配列を説明変数として予測を行うアプローチである。実際、Obemeyerらや伊東らの研究において使用されたモデルは、アミノ酸変異の効果の線型結合により適応度を表現するという至って単純なものだったが、高い精度で適応度を予測できている[11, 34]。2つ目は、deep mutational scanning(用語解説)等のハイスループット実験系により計測したスパイクタンパク質の形質データに基づき適応度を予測するアプローチである。このアプローチは機械学習によるタンパク質機能の最適化タスクと似ているだろう。上記のいずれのアプローチにおいても、近年生命情報科学分野での発展が目覚ましい自然言語処理モデル(用語解説)を応用することで、ウイルス適応度の予測を一定の精度で達成できると考える。

7-3.ウイルス性状データの再活用による感染症研究の推進

ウイルスの感染性や病原性、免疫逃避能といった性質の変化は、パンデミックの被害規模に大きな影響を与える。こうした性質の根底にある分子メカニズムの解明は、抗ウイルス薬やワクチンの開発にとって非常に重要な研究課題である。

Obemeyerらの研究ではウイルス適応度に貢献するアミノ酸変異をゲノムワイドに探索し、特にスパイクタンパク質における変異の効果が実験的に報告されていることを示した[11]。しかし、スパイクタンパク質以外において同定された変異の効果についてはほとんど検証されていない。一方で、スパイクタンパク質以外のウイルス遺伝子が病原性の増悪や自然免疫の惹起に関与している例が報告されている[45, 46, 47]。もちろん5-2章で示したように、スパイクタンパク質はSARS-CoV-2の適応度を決定する重要な遺伝子であることは間違いない。しかし、スパイクタンパク質の多様化とそれに続くウイルスの世界的流行を鑑みると、この遺伝子に対する抗ウイルス薬の開発は極めて困難と予想される。したがって、スパイクタンパク質以外の遺伝子領域についても機能解析を進める必要があるだろう。

ウイルス遺伝子の機能やその変異の効果を検証するためには、ウイルス感染実験のデータを用いた解析が有用であるが、SARS-CoV-2の感染実験データの新規取得は容易でない。そこで、これまでに得られたウイルス性状データの再解析により、新たな知見を見出すアプローチが注目を集めている[48]。表1ではこれまでに報告されているSARS-CoV-2のウイルス性状データの代表例をまとめた。このように様々な分子レイヤーにおけるオミクスデータが取得され続けており、こうしたデータの統合的解析により、ゲノム疫学調査で見出されたリアルワールドでのウイルス流行動態と、その原動力となる分子メカニズムを紐づけることが可能になると期待される。

表1:SARS-CoV-2のウイルス性状に関する大規模データ
実験デザイン 実験手法 引用
タンパク質-RNA相互作用
SARS-CoV-2ウイルスタンパク質と結合するRNAを同定 CLIP法 53
SARS-CoV-2 RNAに結合するタンパク質を同定 RAP-MS法 54, 55
SARS-CoV-2 RNAに結合するタンパク質を同定 ChIRP-MS法 56, 57
ヒトmRNAに結合するウイルスタンパク質、またはSARS-CoV-2 RNAに結合するタンパク質を同定 cRIC法またはvRIC法 58
タンパク質-タンパク質相互作用
SARS-CoV-2タンパク質とヒトタンパク質との相互作用をゲノムワイドに検出 AP-MS法 59, 60, 61
SARS-CoV-2タンパク質とヒトタンパク質との相互作用を網羅的に検出 Y2H法 60, 61, 62
SARS-CoV-2だけでなく、その他コロナウイルスとヒトタンパク質との相互作用をゲノムワイドに検出 AP-MS法 63, 64
RNA-RNA相互作用(RNA二次構造を含む)
感染細胞における短距離のウイルスRNA相互作用(RNA二次構造)を再構築 SHAPE-MaP法および
DMS-MaPseq法
65
感染細胞における短距離のウイルスRNA相互作用(RNA二次構造)を再構築 SHAPE-MaP法 66, 67
感染細胞における短距離のウイルスRNA相互作用(RNA二次構造)を再構築 icSHAPE法 68
感染細胞における短距離・長距離のウイルスRNA相互作用を検出 COMRADES法 69
ウイルス粒子内における短距離・長距離のウイルスRNA相互作用を検出 vRIC法 70
感染細胞におけるウイルス内もしくはウイルス-宿主間のRNA相互作用を解析 SPLASH法 67
ウイルス粒子または感染細胞における短距離・長距離のウイルスRNA相互作用を解析 SPLASH法 71
スパイクタンパク質における変異の効果
起源型である武漢株の感染受容体への結合能の評価 Deep mutational scanning法 72, 73
起源型である武漢株と中和抗体への親和性の評価
(中和抗体:モノクローナル抗体、抗体カクテル、回復期血清等)
Deep mutational scanning法 74, 75, 76, 77, 78
アルファ・ベータ・ガンマ株の感染受容体への結合能の評価 Deep mutational scanning法 19
オミクロン株の感染受容体への結合能、および中和抗体への親和性の評価
(中和抗体:ワクチン接種者およびブレークスルー感染者の血清、モノクローナル抗体等)
Deep mutational scanning法 14, 79, 80
感染に寄与する宿主因子の探索
SARS-CoV-2の感染に寄与する宿主因子の探索 CRISPRスクリーニング法 81, 82
SARS-CoV-2およびその他コロナウイルスの感染に寄与する宿主因子の探索 CRISPRスクリーニング法 56, 83, 84, 85, 86
Long-read sequencing
SARS-CoV-2由来の転写産物の構造、またはエピトランスクリプトームについて解析 Nanopore direct RNA sequencing法 67, 87, 88
Ribosome profiling
各ウイルスタンパク質の翻訳産物・翻訳効率について解析 Ribosome profiling法 89, 90

実験手法の略称は以下の通り。CLIP法:cross-linking and immunoprecipitation、RAP-MS法:RNA antisense purification coupled with mass spectrometry、ChIRP-MS法:comprehensive identification of RNA-binding proteins by mass spectrometry、cRIC法:comparative RNA interactome capture、vRIC法:viral RNA interactome capture、AP-MS法:affinity purification mass spectrometry、Y2H法:yeast two-hybrid、SHAPE-MaP法:selective 2'-hydroxyl acylation analyzed by primer extension and mutational profiling、DMS-MaPseq法:dimethyl sulfate mutational profiling with sequencing、icSHAPE法:in vivo click selective 2-hydroxyl acylation and profiling experiment、COMRADES法:crosslinking of matched RNAs and deep sequencing、SPLASH法:sequencing of psoralen crosslinked, ligated, and selected hybrids

8.おわりに

本稿ではCOVID-19パンデミック下で取り組まれてきたウイルスゲノム疫学研究について概説し、生命情報科学が感染症研究にもたらした功績について紹介した。また、COVID-19との戦いは当面続くと予想されること、さらにはCOVID-19以外にも新たなウイルス感染症が出現してきたことを考慮し、ウイルス学と生命情報科学の融合における今後の展望についても議論した。

ウイルスゲノム疫学研究の必要性はこれまでのパンデミックにおいても盛んに訴えられてきたが、これほど大規模なウイルス配列データをリアルタイムに取得・解析できる時代が訪れるとは、予想していた研究者は少なかっただろう。実際、日々大量の配列データが蓄積されるなかで、相次ぐウイルス変異株の出現や次期流行株の予測といった、様々な課題が浮き彫りとなり、生命情報科学の観点からもホットな研究分野となりつつある。これらの課題を解決するためには、ウイルス学と生命情報科学との密な連携が不可欠であり、生命情報科学分野の研究者がウイルス学分野へ参入すること(逆も然り)が重要だろう。本稿の読者が、ウイルス学と生命情報科学の新たな橋渡しとなることに少しでも興味を持っていただければ幸いである。

脚注

本論文に関して開示すべきCOI関係はない。

謝辞

本稿で紹介した伊東らの研究に関しては、東京大学医科学研究所の佐藤佳教授およびG2P-Japanコンソーシアムに参画されている方々のご協力のもと行われた。本論文は、科研費22J00010(J.K.)、早稲田大学理工学術院総合研究所アーリーバードプログラム(J.K.)、およびJSTさきがけJPMJPR22R1(J.I.)の支援を受けたものである。データ解析には、東京大学ヒトゲノム解析センターにおけるスーパーコンピュータおよび情報・システム研究機構 国立遺伝学研究所における遺伝研スーパーコンピュータを利用した。

References
用語解説

適応度

ある環境下において1個体が次世代に残す子孫の数の期待値。ウイルスゲノム疫学では、ある変異株の感染拡大能力の指標として扱われる。

基本再生産数

ある病原体に対して全く免疫を持たない集団において、1人の感染者が平均して何人の二次感染者を発生させるかについての推定値。厳密には病原体そのものの伝播力だけでなく、環境要因(ウイルスの伝播には温度や湿度が重要)や感染集団の行動(非感染者との接触頻度)等の影響を受けることに注意が必要である。

実効再生産数

特定の条件下において、1人の感染者が平均して何人の二次感染者を発生させるかについての推定値。基本再生産数との違いは、感染症対策(ロックダウンによる行動変容等)が講じられていたり、ワクチン接種や自然感染により免疫を獲得したりといった、特定の条件下にある集団での感染の広がりやすさを表す指標である点。

One health

ヒトと動物の健康、それらを取り巻く地球環境は密接に関連しているという概念に基づき、これら3つの要素を統合的に管理することで、重篤な感染症の発生や拡大を防ごうとするアプローチ。

中和試験

抗体や血清等が細胞へのウイルス感染をどの程度阻害するかを調べる手法。免疫逃避を起こしているウイルスは抗体による影響を受けにくいため、細胞に広く感染することができる。

遺伝的アルゴリズム

生物進化を模して開発された最適化手法の1つ。まず、与えられた問題に対する解の組み合わせを「遺伝子」として表現した「個体」を複数用意し、適応度の高い個体を優先的に選択する。次に、選択された個体同士で交叉を行ったり、遺伝子に突然変異を導入したりすることで、新たな個体を生成する。こうした選択、交叉、突然変異といった操作を繰り返すことで、適応度の高い個体を生成し、最適解を探索する。

Deep mutational scanning

解析対象となる遺伝子配列の変異体ライブラリを作成し、その機能活性をハイスループットに測定することで、各変異の効果を網羅的に調査する手法[49]。SARS-CoV-2の例では、スパイクタンパク質におけるアミノ酸変異が感染受容体や中和抗体との結合親和性に与える影響について主に研究されている(表1)。

自然言語処理モデル

文章や話し言葉といった自然言語について、単語の意味や文法、文脈等を学習させた機械学習モデル。自然言語において単語の組み合わせや並びが文章の意味を変化させるのと同様に、遺伝子の機能もアミノ酸や塩基といった文字列によって変化するという仮定に基づき、遺伝子配列解析への応用が進められている[50]。

著者略歴

川崎 純菜
山口大学農学部獣医学科(現・共同獣医学部)を卒業後、獣医師としての職務経験を経て、2019年に日本学術振興会特別研究員 DC1として京都大学生命科学研究科博士後期課程に編入学。2022年3月に博士(生命科学)を取得し、同年4月から日本学術振興会特別研究員 PDとして早稲田大学に異動、現在に至る。遺伝子配列データの大規模解析によりウイルス多様性とその原動力に迫ることで、感染症対策への貢献を目指す。
ホームページ:https://site-3656578-8006-8524.mystrikingly.com/
伊東 潤平
東京大学 医科学研究所 システムウイルス学分野 助教。さきがけ研究者。獣医師、理学博士。山口大学農学部獣医学科を卒業後、国立遺伝学研究所にて生命情報科学を学ぶ。データ駆動アプローチを駆使し、1) ウイルスと宿主の進化的相互作用の解明、2) ウイルス進化と流行パターンの解明に取り組む。ウイルス学若手統計勉強会など、ウイルス学と生命情報学の分野融合を促進するための様々な活動を行っている。
ホームページ:https://sites.google.com/view/jumpeiito

 
© 2023 日本バイオインフォマティクス学会

This article is licensed under a Creative Commons [Attribution-NonCommercial-ShareAlike 4.0 International] license.
https://creativecommons.org/licenses/by-nc-sa/4.0/
feedback
Top