メタゲノムデータからのウイルス探索とバイローム構築

西村 瑠佳; 井ノ上 逸朗

doi:10.11234/jsbibr.2023.primer5

Abstract

ウイルスはヒトの体内をはじめとする地球上の様々な場所に存在し、バイロームを構成する。このバイロームを解析するのにはメタゲノムデータまたはメタトランスクリプトームデータを用い、バイオインフォマティクス技術を駆使したウイルスゲノムの網羅的探索が必要となる。ウイルスゲノムの探索には既知のウイルスゲノム配列を基にした相同性検索に加え、近年では様々な手法が用いられるようになった。さらに、こうして探索された多数のウイルスゲノムを基に、バイロームを構成するウイルス組成や宿主との関連性が調べられている。本稿ではウイルスの探索とバイローム解析に使われるバイオインフォマティクス解析手法を紹介し、バイローム研究結果の概要や問題点などを概説する。

1．はじめに

ウイルスは地球上に大量に存在し、その数は約10³¹個と推定されている［1, 2］。これらのウイルスは生態系の中でバイロームを構成し、他の生物と相互作用しながら存在する。ヒトのバイロームにおいてもRNAウイルスとDNAウイルスの両方が存在し、そのゲノムのサイズやウイルス粒子の構造などの特徴は非常に多様である［3］。また、ヒトなどの宿主の疾患などとも密接に関連している［4］。このようなバイロームの全貌解明が期待されるようになった。そのきっかけとして、2006年に次世代シーケンサー（NGS）が登場したことが挙げられる。それまではウイルス配列のクローニングとサンガーシーケンスによって、動植物の組織などから単離されたウイルスのゲノム配列を決めていた。NGSの登場と発展に伴い、環境中の微生物のゲノムを網羅的に解読するメタゲノム解析・メタトランスクリプトーム解析が行われるようになった。これらのゲノム解析では、海水や土壌、動植物の組織などのサンプルから培養を介さずに抽出されたDNAやRNAを直接シーケンスにかけるため、未培養のウイルスゲノム（UViG）も新規に大量に獲得することができる［5］。図1にこれまでにデータベース上に登録されたウイルス配列数の遷移例を示す。National Center for Biotechnology Information （NCBI）のデータベース上には1980年代からウイルス配列が登録されはじめ、現在では20万を超えるゲノムが登録されており、その数は指数関数的に急激に増加していることがわかる（https://www.ncbi.nlm.nih.gov/nuccore）［6］。また、Joint Genome Institute （JGI）が管理するIntegrated Microbial Genomes / Virus （IMG/VR）にはUViGを含む配列が登録されており、2016年に公開されて以来、4回の更新を経て2023年現在では15,677,623の配列が登録されている［7, 8, 9, 10］。シーケンスデータの蓄積に伴い、今後もより多くのウイルスゲノム配列が同定されると考えられるが、これらのウイルスゲノムの同定・解析にはバイオインフォマティクス技術が必要不可欠である。本稿では、バイローム解析におけるバイオインフォマティクス技術がどのように寄与しているのか、バイローム解析の現状などを紹介する。

図１：データベース上のウイルスゲノム配列数の変動。横軸に年を表し、縦軸に登録されているウイルスゲノム配列数を対数で示した。灰色の線はNCBIに登録のあるウイルス配列の合計数を示し、オレンジ色の線はその中でもリファレンスとして登録のあるものを示した。配列の探索条件はリファレンスゲノムで“Viruses ［Organism］ AND srcdb_refseq ［PROP］ NOT wgs ［PROP］ NOT cellular organisms ［ORGN］ NOT AC_000001:AC_999999 ［PACC]”、全ウイルスゲノムで“Viruses ［Organism］ NOT cellular organisms ［ORGN］ NOT wgs ［PROP］ NOT AC_000001:AC_999999 ［pacc］ NOT gbdiv syn ［prop］ AND nuccore genome samespecies ［Filter］”として探索を行い、2023年7月20日にNCBI nucleotide database portal (https://www.ncbi.nlm.nih.gov/nuccore) にて探索を行った［5］。また、黄色の線ではIMG/VRに登録のある配列を示した。

2．ウイルスの網羅的探索手法

メタゲノムデータやメタトランスクリプトームデータからウイルスを探索する際にはバイオインフォマティクス解析を実施する。取得されたショートリードのシーケンシングデータを使って初めにアダプターの除去などの前処理を行う。その後ゲノムのde novoアセンブリやビニングを実施することにより、シーケンシングのために断片化された配列（リード）から元のゲノムの構造を反映した長いゲノム配列（コンティグ）を取得する。これらの配列を用いてウイルス探索を行うが、この際に用いられる解析手法とツールを下記にて紹介する（表1）。また、ウイルス解析の流れを図2に示す。

表１：ウイルス探索やバイローム解析に用いられるツール例

ツール名	概要	対応するウイルス分類	対応する宿主分類	リンク	引用
ウイルスの探索
BLAST	相同性検索を行う	DNAウイルス、RNAウイルス	真核生物、細菌、アーキア	https://blast.ncbi.nlm.nih.gov/Blast.cgi	［12］
DIAMOND	相同性検索を行う	DNAウイルス、RNAウイルス	真核生物、細菌、アーキア	https://github.com/bbuchfink/diamond	［13］
VirSorter2	ウイルスホールマーク遺伝子の存在などの特徴量を使った機械学習法により探索を行う	DNAウイルス、RNAウイルス	真核生物、細菌、アーキア	https://github.com/jiarong/VirSorter2	［19］
MARVEL	遺伝子長などの特徴量を使った機械学習法により探索を行う	二本鎖DNAウイルス	細菌	https://github.com/LaboratorioBioinformatica/MARVEL	［20］
VIBRANT	タンパク質シグネチャーのニューラルネットワークとウイルスタンパク質の推定結果を基に探索を行う	DNAウイルス、RNAウイルス	細菌、アーキア	https://github.com/AnantharamanLab/VIBRANT	［21］
Prophinder	細菌のゲノムとプラスミド中のファージ様CDSから探索を行う	プロファージ	細菌	http://aclame.ulb.ac.be/prophinder	［22］
PHASTEST	細菌のゲノム中のファージ様CDSから探索を行う	プロファージ	細菌	https://phastest.ca	［23］
VirFinder	細菌とアーキアのファージゲノムのk-mer頻度を使った機械学習法により探索を行う	DNAウイルス、RNAウイルス	細菌、アーキア	https://github.com/jessieren/VirFinder	［25］
DeepVirFinder	細菌とアーキアのファージゲノムのk-mer頻度を使ったニューラルネットワークにより探索を行う	DNAウイルス、RNAウイルス	細菌、アーキア	https://github.com/jessieren/DeepVirFinder	［26］
geNomad	染色体とプラスミド、ウイルスゲノムを用いマーカー遺伝子やk-mer頻度を使ったニューラルネットワークにより探索を行う	DNAウイルス、RNAウイルス、プロウイルス	真核生物、細菌、アーキア	https://github.com/apcamargo/genomad	［27］
クオリティチェック
CheckV	ウイルスゲノム配列のクオリティを調べる	DNAウイルス、RNAウイルス、プロウイルス	真核生物、細菌、アーキア	https://bitbucket.org/berkeleylab/CheckV	［33］
遺伝子アノテーション
HMMER	HMMのペアワイズアライメントに基づいてアノテーションを行う	DNAウイルス、RNAウイルス、プロウイルス	真核生物、細菌、アーキア	http://hmmer.org/	［34］
HHPred	HMMのペアワイズアライメントに基づいてアノテーションを行う	DNAウイルス、RNAウイルス、プロウイルス	真核生物、細菌、アーキア	https://toolkit.tuebingen.mpg.de/tools/hhpred	［36］
DRAM	ウイルス遺伝子のアノテーションを行う	DNAウイルス、RNAウイルス、プロウイルス	真核生物、細菌、アーキア	https://github.com/WrightonLabCSU/DRAM	［37］
系統解析。［45］を参照
ViPTree	ウイルスゲノム配列を用いtBLASTxによりゲノム間の比較に基づいた系統樹を作成する	DNAウイルス、RNAウイルス	真核生物、細菌、アーキア	https://www.genome.jp/viptree/	［47］
VICTOR	ウイルスゲノム配列を用いBLASTnやBLASTpによりゲノム間の比較に基づいた系統樹を作成する	DNAウイルス、RNAウイルス	細菌、アーキア	https://ggdc.dsmz.de/victor.php	［48］
GRAViTy	ウイルスゲノム配列を用いBLASTpによりゲノムと遺伝子の比較に基づいた系統樹を作成する	DNAウイルス、RNAウイルス	真核生物	https://github.com/PAiewsakun/GRAViTy	［41］
vConTACT v.2.0	ウイルスゲノム配列を用い遺伝子共有ネットワークを作成する	DNAウイルス、RNAウイルス	細菌、アーキア	https://bitbucket.org/MAVERICLab/vcontact2/wiki/Home	［52］
ウイルス宿主の推定。特にファージの宿主推定については［63］を参照
HTP	ウイルスゲノム配列を用い塩基の種類とk-merを特徴量として機械学習を行い宿主を推定する	DNAウイルス、RNAウイルス	真核生物、細菌、アーキア	https://github.com/wojciech-galan/viruses_classifier	［56］
VIDHOP	ウイルスゲノム配列の塩基に基づきDNNにより宿主を推定する	インフルエンザA型ウイルス、狂犬病ウイルス、ロタウイルス	真核生物	https://github.com/flomock/vidhop	［57］
RaFAH	ファージのゲノム中に含まれるウイルス遺伝子を特徴量として推定する	DNAウイルス、RNAウイルス	細菌、アーキア	https://sourceforge.net/projects/rafah/	［60］
HostPhinder	ファージ配列と宿主配列のk-merの類似度を基にして推定する	DNAウイルス、RNAウイルス	細菌	https://github.com/julvi/HostPhinder	［62］
SpacePHARER	Host CRISPR spacersを基にして推定する	DNAウイルス、RNAウイルス	細菌、アーキア	https://github.com/soedinglab/spacepharer	［64］

図２：バイローム解析の流れ

最も使われる手法として、既知のゲノム配列との相同性を基にして新規のゲノム配列を探索する相同性検索が挙げられる［11］。相同性を基にした手法ではBasic Local Alignment Search Tool （BLAST）と呼ばれるペアワイズアライメントを取り入れたアルゴリズムや、それを高速にしたDIAMONDなどが用いられている［12, 13］。この相同性検索を実施する際に必要となるウイルスのリファレンスゲノムは第1章で紹介したNCBIのRefSeq Viral genomeやJGIのIMG/VR databaseなどが挙げられる。他にもヒト腸内や口腔内をはじめ様々なバイローム解析で探索されたウイルス配列がリファレンスとして使われる［14, 15, 16, 17］。

このようにゲノム同士の相同性検索によって多くのウイルスが同定されてきたが、相同性を持たないウイルスについては、同定が非常に困難である。その理由として、ウイルスは普遍的なマーカー遺伝子を持たないことや、そのゲノム配列が非常に多様であることが挙げられる［18］。より多くのウイルスを同定するために、遺伝子に注目した手法、ヌクレオチド組成を基にした手法、宿主のCRISPRを使った手法によってウイルスの同定が行われている。以降でそれらの詳細を説明する。

遺伝子に注目した手法

遺伝子の内容の組み合わせやゲノムの構造的特徴を考慮した機械学習を取り入れた手法が多く開発されている（図3a）。具体的にはVirSorter2やMARVEL、VIBRANTなどが挙げられる［19, 20, 21］。この手法では遺伝子の内容を考慮することから、初めにウイルス候補配列を用いて遺伝子のアノテーションを行う。アノテーション結果を基に、ウイルスに特徴的な遺伝子（キャプシドタンパク質、ターミナーゼなど。ホールマーク遺伝子と呼ばれる）の数や遺伝子の長さ、遺伝子間距離、遺伝子の密度、ATGで始まるコドンの割合などを算出し、これらの情報を特徴量として分類を行う。これらの分類に用いられる特徴量の種類はツールによって異なる。事前に用意する学習データとしては、RefSeqに登録のあるウイルス配列などが用いられる。さらに、宿主細菌のゲノム中に含まれるプロファージ配列を標的とした探索手法も挙げられる。既知のウイルスリファレンスを用い、宿主細菌ゲノム上で相同性検索を行う。ProphinderやPHASTESTなどをはじめとするツールが開発されている［22, 23］。

図３：ウイルスの探索手法。(a)遺伝子の内容を基にしたウイルスの探索手法を示した。(b)宿主とファージの関係性を示し、この関係性を基にウイルスを探索する手法を示した。(c)塩基組成を基にしたウイルス探索手法を示した。

ヌクレオチド組成を基にした手法

既知のウイルスのk-mer頻度を基に機械学習によってウイルス配列を同定する手法が開発されている（図3b）。これはウイルスと宿主が使用するk-mer頻度の違いを利用してウイルスと宿主の配列を区別し、ウイルスを探索する手法である［24, 25］。この時のk-mer頻度はコーディングまたはノンコーディング領域関係なく算出され、ウイルス遺伝子の探索が必要ない。そのため、既知のウイルス遺伝子と相同な配列が少ない場合や断片配列に対して優れた性能を発揮することができる［25］。k-merに基づく探索ツールとしてはVirFinderやDeepVirFinderが挙げられる［25, 26］。また、先に紹介した遺伝子配列に基づく手法と組み合わせたgeNomadというツールも開発されている［27］。

宿主のCRISPRを使った手法

CRISPRとはClustered regularly interspaced short palindromic repeatsの略語で原核生物における獲得免疫記憶のことである。CRISPR座位にある数十塩基の反復配列（ダイレクトリピート、DR）の間に、細菌に感染するウイルス（ファージ）やプラスミドなどの可動遺伝因子（MGE）の断片配列をスペーサーとして挿入することで、同一配列に対して耐性を獲得する機能がある［28, 29］。つまり、CRISPR座位を解析することによって、ファージの部分配列を取得することが可能で、その部分配列を基にCRISPRの標的となったファージの配列を取得することが可能である［29, 30, 31］。一例として、本稿の著者らのグループから発案されたファージ配列同定の解析の流れを概説する（図3c）［32］。初めにアセンブルされたコンティグからDRを含むCRISPR座位を見つけ出し、DR配列を取得する。得られたDR配列を2つ含むリード配列を取り出し、その間に挟まれたスペーサー配列を獲得する。続いてCRISPR座位をマスクしたコンティグを用い、ファージ側にあるプロトスペーサー配列（スペーサー配列と同一）を探索する。プロトスペーサーの共起ネットワークによりプロトスペーサーをクラスタリングし、プロトスペーサーが多く存在する場所を獲得することでCRISPRの標的になっている配列を抜き出すことが可能である。他にも、マイクロアレイを用いることでCRISPRの標的となったファージやプラスミドを同定する手法も知られている［30］。

3．バイローム解析手法

2章で紹介した手法によって多様なウイルスを同定できることが明らかとなった。こうして得られたウイルス配列を用いた代表的なバイオインフォマティクス解析手法を下記に紹介する。図2に解析の流れを示した。また、表1にも本稿で紹介するツールを記載した。ここで紹介しきれなかったツールはCapsid Community （https://github.com/Tomikent/Capsid_community）がまとめたリストなどを参照されると良いだろう。

配列のクオリティチェック

ウイルス探索に用いるメタゲノムデータの多くは、その環境中に存在するDNAやRNA配列をランダムにシーケンサーで配列解読を行ったものである。そのため、存在量の少ないウイルスでは完全長のゲノム配列を復元できずに、断片化したクオリティの低いウイルスゲノム配列が多く獲得されてしまう。また、メタゲノムデータにはウイルス配列以外にもウイルスの宿主由来の配列が含まれる可能性が高い。そのため、宿主由来の配列が誤ってアセンブリデータに含まれてしまうだけでなく、宿主のゲノムにプロウイルスとして挿入されている配列も存在し、宿主配列との境界が曖昧な場合がある。そのため、配列クオリティに応じて後の解析を実施することが推奨されている［5］。例えばCheckVと呼ばれる解析ツールでは、獲得された配列の完全性を推定し、さらに宿主のゲノム中のプロウイルス配列については宿主領域を除去することができる［33］。こうして獲得されたゲノムのクオリティによって種や属レベルの解析を実施する。また、断片的な配列しか得られなかったものはウイルスホールマーク遺伝子とされるキャプシドタンパク質やポリメラーゼなどの系統解析に用いられる。

遺伝子アノテーション

上記で獲得されたウイルス配列を特徴づけるために、遺伝子のアノテーションが実施される。ウイルスゲノムの探索の場合と同様に相同性検索を基にした手法としてBLASTなどが用いられるだけでなく、隠れマルコフモデル（HMM）を取り入れたHMMER （v3.3.2, http://hmmer.org/）やHHPredといったより検出感度の高い手法を用いられることが多い［34, 35, 36］。ウイルス遺伝子のアノテーションに特化した解析ツールとしてはDRAMなどが開発されている［37］。また、ウイルス遺伝子の探索に用いられるデータベースとしてはNCBI RefSeqのviral proteinsやIMG/VRデータベースのタンパク配列、Virus Orthologous Groups （VOGDB release: v218, http://vogdb.org/）などが挙げられる。

ウイルス系統分類

ウイルスの分類において重要な役割を担うのがInternational Committee on Taxonomy of Viruses （ICTV）と呼ばれる団体で、50年以上にわたってウイルスやその他のMGEの分類と命名に取り組んできた［38］。歴史的にはウイルスの宿主の範囲や複製サイクル、ウイルス粒子の構造と特性などをもとに分類が行われてきた［39］。しかし、メタゲノムデータを使用した大規模なウイルスの探索により、実験に基づいて特性評価されたウイルスよりも多くのウイルスゲノム配列が同定されている［39］。近年こうして同定されたウイルスゲノムが指数関数的に増えていることから、ウイルスを配列データのみに基づいてICTVの分類体系に組み込む場合のガイドラインも発表されている［40］。例えば種レベルの分類（vOTU）では85％のアライメント率で95％の塩基相同性を持つことが提案されている［5］。一方、種レベルよりも高い分類レベルでは複数のアプローチが提案されており、現状ではどの分類手法を採用すべきか一致した見解は得られていない［16, 41, 42］。実際に、メタゲノムデータで得られた大量のウイルスゲノムの系統分類に用いられる手法として、分類情報がすでにわかっているRefSeqのウイルスゲノムとのクラスタリングやウイルスホールマーク遺伝子の有無、既知のウイルス遺伝子との相同性やゲノム中の遺伝子数などを基にした分類方法などが実施されている［10, 14, 16, 43］。このように複数手法が提案されているため、論文中にどのような手法や条件で系統分類を行ったのか明記すべきだとされている［5］。

ウイルス種間の系統関係はゲノム配列や特定の遺伝子のアライメントから推測される［44, 45］。同じファミリー内のウイルスなど近縁なウイルスを対象に、進化的に保存されたウイルスホールマーク遺伝子の配列や内容を比較することで関係性を推測できる［46］。例えばViPTreeやVICTOR、GraViTyといったツールが用いられる［41, 47, 48］。また、ウイルスホールマーク遺伝子を用いた系統解析の例として、RNAウイルスにおいてはRNA依存性RNAポリメラーゼ（RdRp）がホールマーク遺伝子として用いられ、複数のRdRpのマルチプルアライメントの結果に基づき、最尤法などによって系統解析が実施されている［49, 50］。また、複数の保存されたタンパク質を連結させてアライメントを行うことで系統解析を行うこともあるが、ウイルスでは水平伝播などによって各遺伝子が異なる進化の歴史を辿っていることが多く、誤った系統的シグナルが得られる可能性があることには留意すべきである［44, 51］。上記に加え、ネットワーク解析によってウイルスの系統関係を調べる手法も開発されており、ウイルスゲノム間で共有するタンパク質のクラスターを基にした遺伝子共有ネットワークから系統分類を行うことができる。例えばvConTACT v.2.0というツールなどが開発されている［52］。

ウイルス宿主の推定

ウイルスの宿主は古典的には実験的に検証されており、宿主細胞の溶解が起こるかどうかが指標となり得る［53, 54］。一方、これまで紹介してきたような培養を介さずに直接メタゲノムデータから取得されたウイルスについては、ゲノム配列から宿主を予測する必要がある。原核生物と真核生物のウイルスどちらにも適応可能な手法として、遺伝子の内容やゲノムを構成する核酸の種類、塩基組成情報などを用いた機械学習法による分類が挙げられる［55, 56, 57, 58, 59］。例えば、ウイルスの遺伝子を基にしたRaFAHというツールが使われている［60］。塩基組成についてはk-mer頻度（k=1-4）やコドン使用頻度がウイルスとその宿主のゲノムと類似するという事例に基づいており、HostPhinder をはじめとするツールが開発されている［61, 62］。また、原核生物においてはCRISPR座位に含まれるウイルスの断片配列や、宿主のゲノム中に挿入されたウイルス配列からウイルスと宿主を対応づけて宿主の推定を行うことが可能である［63］。例えばCRISPR座位の情報を用いたSpacePHARERというツールも開発されている［64］。

4．これまでに明らかになっていること

上記の解析によって多様な環境から大量のウイルスゲノム配列が同定されてきた。下記にいくつかの研究例を紹介する。

ヒトのバイローム

糞便中のウイルス粒子数の測定結果などからヒトの体内には数千億から数十兆のウイルス粒子が含まれているとされ、全体でヒトのウイルスから細菌に感染するファージ、植物のウイルスなどその種類は多岐にわたる［3, 11, 65］。これまでの研究により口腔、肺、消化管、血中、神経系、皮膚、泌尿器、生殖器など様々な部位からウイルスが同定されている［14, 15, 16, 43, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76］。ウイルスの大半は消化管に存在し、中でもCaudoviralesに分類される尾部を持ったファージが大部分を占める［3］。新生児では無菌状態の腸内に出生後数週間でファージとその宿主の細菌が入り込む［77］。母親から乳児へのウイルスの伝播が起こることやウイルスを介して食事関連の適応に関連した遺伝子が腸内細菌間で水平伝播することなどが示されている［77, 78］。ヒトバイロームに大きく影響を与える要素としては、食べ物、健康状態、地理的要因、年齢などが挙げられる［3, 4, 14, 67, 79, 80］。健康状態については炎症性腸疾患をはじめとして様々な疾患を対象に、患者と健常人のバイロームを比較することによって、ウイルス組成の違いなどが明らかにされている［81］。また、地理的要因については、ヒト集団間で異なるバイロームの特徴が見られることが明らかとなっており、日本人集団のバイロームを特徴付けた研究などが行われている［82, 83］。

動物のバイローム

動物のウイルスは他の動物に感染して重篤な疾患を引き起こす可能性があるため、動物のバイロームを理解するためだけでなく、ヒトに疾患を引き起こす可能性の高いウイルスを探索する上でも重要である［84, 85, 86］。しかし、動物のバイローム解析は人間社会に強く関係のある動物に感染して疾患をもたらすウイルスに偏っている［87］。また、メタトランスクリプトームデータの解析によって多様な脊椎動物のウイルスを同定して系統解析を行ったことで、宿主の系統発生史を反映した系統関係が見られた［88］。一方、近年精力的にシーケンスが実施され、様々な動物種からゲノムデータを取得できるようになってきたことから、節足動物をはじめとする動物のRNAウイルスの存在が解明されつつある［89］。

古代人のバイローム

現代人と同様に、古代人の体内にもウイルスが存在していたはずである［90］。数百年から数万年前の古代人由来の古代DNAを抽出し、シーケンスを行うことで、古代人体内に存在したウイルスのゲノム情報も取得することができる。古代ウイルス研究は医学的な重要性から、B型肝炎ウイルスや天然痘ウイルスなどヒトに病原性をもたらすウイルスに注目したものが多いが、古代人体内のバイロームを構成していた古代ファージの存在も明らかになりつつある［91, 92, 93］。古代ウイルス探索においては、古代DNAの特徴である「DNAの5'末端でシトシンからチミンへの置換が多いこと」などの指標をもとに、現代のウイルスのコンタミネーションを最小限に抑えた解析を行う必要がある点は常に念頭に置かなければならない。また、古代RNAウイルスについてはRNAの安定性の低さから探索数は少ないが、700～1000年ほど前の植物RNAウイルスのゲノムが複数取得されており、今後さらなる探索が必要となるであろう［94, 95, 96］。

巨大ウイルスのバイローム

巨大ウイルスとはゲノムサイズが70 kbから2.5 Mbと長く、ウイルス粒子長も大きいものである。メタゲノム解析によってより多くの巨大ウイルスが発見されるようになり、海水や淡水をはじめとする環境から同定され、地球の生物圏全体に分布していることが明らかとなった［97］。宿主の代謝に関係する遺伝子を多数含んでおり、地球規模の栄養循環に影響を及ぼしている可能性が示唆されている［98］。

5. バイローム研究の直面する問題と今後の展望

これまでの章でバイローム解析を行う方法やそれによってわかることなどを概説してきた。本章ではバイローム研究における問題点を簡単に紹介する［5］。

ウイルスゲノム配列の探索不足と探索の難しさ

メタゲノムデータやメタトランスクリプトームデータが取得されるまで、ウイルスゲノムはヒトなどで疾病をもたらすものや実験室条件下で培養できるものなどに偏って探索が進められていた［99］。そのため、探索されているウイルスに偏りが生じている。さらに、宿主のゲノムデータにも偏りがあり、ウイルス探索がより多く進んでいる宿主とそうでないもので差がある［87］。特にヒトの生活に関連のある動植物に感染するウイルスに偏りがある。ウイルスの多様性や進化への理解を深めるためには、このような偏りなくより多くの分類群の宿主から多くのウイルスを大規模に解析する必要がある。

このようにウイルスに関する知見に偏りがある中で、ウイルスゲノムの相同性を基に探索を行うことは困難である。例えば、2333のファージ同士を塩基配列や遺伝子の内容を基にペアワイズ比較したところ、97％の場合において検出可能な相同性が見られなかったという報告がある［100］。また、真核生物に感染するRNAウイルスではウイルスホールマーク遺伝子としてRdRpの存在が知られているが、その配列は非常に多岐に渡り、その長さも460から1930アミノ酸残基と多様である［101］。加えて、最近では異なるゲノムのセグメント上にコードされることも明らかになっている［102］。このような多様な配列は従来の相同性検索を基にした手法では探索しきれないとされる。さらに、ウイルスでも非AUG開始コドンや非標準的な遺伝暗号を用いること、同じ領域において異なるフレームで遺伝子がコードされることなどによってその配列解析が難しくなっている［103, 104, 105］。

ウイルスの分類体系のばらつきやデータベース上での表記ゆれ

ICTVでは既存のウイルス分類群に対して分類方法などが提案されているが、メタゲノム解析で取得されたウイルスの属や科レベルでの分類においては研究グループごとに異なる解析手法や閾値を設定しており、研究者間で一致した基準がない［5］。本稿においても様々なウイルス解析ツールを紹介してきたが、ここで紹介しきれなかった解析ツールや解析パイプラインなども多く存在し、どれを採用すべきか慎重に検討する必要がある。他にも、データベースに登録されている情報の表記ゆれも散見される。例えば、ウイルスゲノム配列を公開データベース上に登録する際にCapsidまたはcapsidと表記するような表記揺れなど、記載方法が一貫しておらず情報の取得に支障が出る場合がある。また、異なるアノテーション方法や進行中の実験結果によって、不正確なアノテーションが生じていることも問題である［106］。

種々のエラー

メタゲノムデータ中には宿主の細胞に由来する配列も含まれているために、宿主細胞由来の配列をウイルス配列と誤って認定してしまうといった事例が考えられる［107］。特にプロウイルスのように宿主のゲノムに挿入された配列を調べる場合には、ウイルスゲノムと宿主ゲノムの境界を明確にする必要があり、マニュアルでのアノテーションが必要だとされている。また、カバレッジの低いデータではアセンブリが上手くいかずに、断片的な配列が取得されてしまう［108］。他のエラーとして、既知の遺伝子との相同性が低いことによる遺伝子や遺伝子機能の推定のエラーなどが挙げられる［5］。

今後の展望

シーケンス技術が日々発展していることを考えると、ゲノムデータは引き続き指数関数的に蓄積すると考えられる。これらのゲノムデータを用いることで、より多くの環境から多様なウイルスを探索することができると推測される。このような状況で、より多様なウイルスを探索するには、既知のウイルス配列と相同性を示さないウイルス配列を探索する技術の更なる開発が重要となってくるであろう。本稿で紹介したような塩基組成やCRISPRに基づく手法に加え、今後はタンパク質の構造に基づいた探索手法なども取り入れる必要があると考えられる［87］。特に、RdRpのように塩基配列レベルではその相同性が見られないようなものでも、酵素活性に関わる複数の残基やモチーフの存在が明らかになっていることや、形態学的に異なるウイルス間でもいくつかのウイルスタンパク質は三次元構造レベルでの保存性を示すことを踏まえると、構造解析によって新規のウイルスを探索できる可能性がある［109, 110, 111］。構造解析に加えて、他の生物と異なる遺伝子コード様式を持つウイルスにおいては、翻訳されているウイルス遺伝子にターゲットを絞って解析を行うことも有用だと考えられる。例えば、翻訳中の遺伝子を調べることのできるRibo-seqのデータ解析と実験による機能解析などと組み合わせた方法が挙げられる［112］。これまで得られている知見を基に、より多くのウイルスを高感度かつ高精度に同定するようなバイオインフォマティクス解析ツールの開発が求められる。このように新しい手法を取り入れてウイルスゲノムの解析を進める上では、解析に用いた探索条件などを明確にし、研究者間での連携によって新たな基準を制定することも今後重要になってくるであろう。

謝辞

この原稿を執筆するにあたってアドバイスをくださった京都工芸繊維大学ショウジョウバエ遺伝資源センターの杉本竜太研究員に感謝申し上げます。本稿は科研費研究課題22KJ1416の支援を受けたものです。

References

用語説明

1．メタゲノムデータ

環境サンプルから取得された核酸を網羅的にシーケンスで配列解析を行ったデータ

2．メタトランスクリプトームデータ

環境サンプルから取得された核酸の中でも特にRNAを網羅的にシーケンスで配列解析を行ったデータ

3．de novoアセンブリ

シーケンシングのために断片化された配列（リード）をコンピューター上で繋ぎ合わせて元の配列を復元したコンティグを取得する手法

4．コンティグ

リードからde novoアセンブリによって復元された長い配列

5．ビニング

コンティグやリードから配列組成や存在量を基に配列を分類することでMetagenome Assembled Genomes （MAGs）を構築する手法

6．プロファージ配列

細菌のゲノム中に挿入された状態のファージのゲノム配列

7．スペーサー

CRISPR座位に存在する、過去にCRISPRのターゲットとなったファージなどの可動遺伝因子（MGE）の断片配列

8．プロトスペーサー

MGEゲノム上のCRISPRにターゲットとなったスペーサーと同一の配列

9．ダイレクトリピート（DR）

CRISPR座位に存在する、スペーサーの間に存在する繰り返し配列

著者略歴

西村瑠佳
北海道大学理学部生物科学科卒業。現在、総合研究大学院大学生命科学研究科遺伝学専攻五年一貫博士課程に在籍し、国立遺伝学研究所人類遺伝研究室にて古代ウイルス研究に取り組む。2021年度より日本学術振興会特別研究員(DC1)。生命情報科学若手の会と遺伝学若手の会の運営に携わり、若手研究者間のネットワーク作りに取り組む。

井ノ上逸朗
鹿児島大学医学部卒、鹿児島大学大学院にて生化学で学位取得。徳島大学酵素化学研究所を経て、米国ユタ大学医学部生化学へポストドクとして留学。その後、ユタ大学ハワードヒューズ医学研究所の研究員として遺伝学を学ぶ。帰国後は群馬大学生体調節研究所の助教授、東京大学医科学研究所客員助教授、東海大医学部教授、国立遺伝学研究所人類遺伝研究室教授。2023年度より同研究室特任教授。

Corresponding author

Register with J-STAGE for free!