メタゲノムデータ解析から見る環境微生物像

奥田 修二郎

doi:10.11234/jsbibr.2021.primer1

Abstract

長年の間、環境微生物の研究は培養できた微生物について実験を実施することで知見を積み上げてきた。しかし、次世代DNAシーケンサーの登場でその解析の方法論が大きく変化した。環境中のすべての微生物のDNAを網羅的に解析することができるメタゲノム解析に加えて、16S rRNA遺伝子のみを対象としたメタ16S解析も次世代DNAシーケンサーで実施することでその解析の深度が増している。このような環境微生物の研究に大規模なDNA配列のシーケンス技術が応用されてからすでに10年以上が経過している。現在では、あらゆる環境においてメタゲノム・メタ16S解析が実施され、環境中の微生物の系統に加えて、遺伝子配列そのものやその機能に至るまで詳細に解析されるようになってきた。本稿ではこれらの環境微生物解析におけるバイオインフォマティクスの役割について述べたい。

はじめに

微生物は、海、土壌、腸など、地球上のほぼすべての環境に生息し、それぞれの環境に適したコミュニティを形成している［1, 2, 3］。環境微生物の研究は、これらの環境における微生物の動態を解析し、個々の微生物がそれぞれの環境で何をしているのか、なぜそこに存在しているのかを明らかにすることを目的としている。しかし、環境微生物の多くは実験的に培養することが極めて困難であり、従来の生化学的・分子生物学的手法の適用は限られていた。2000年代半ば、このような困難な状況を打開する転機ともいうべき技術が開発され、大きなパラダイムシフトをもたらした。それは、いわゆる次世代DNAシーケンサーと呼ばれる次世代DNAシーケンサーの開発である。これにより、ある環境に存在するすべての微生物のDNAの塩基配列を決定することが可能となり、メタゲノム解析の時代が始まったのである。環境中のすべてのDNAを決定するというアプローチは、16S rRNAの塩基配列に基づく系統的な組成しか観察できなかった状況を、遺伝子や機能的な組成を観察できる状況に変えた。また、従来型の16S rRNA遺伝子配列から生物種を同定するアプローチも、ゲルでバンドを分離してからシーケンスするという手間をかけること無く、抽出された16S rRNA遺伝子領域の配列を次世代DNAシーケンサーでシーケンスしてしまうメタ16S解析が主流になっている。つまり、環境中に存在する遺伝子と、その遺伝子を持つ生物種を特定できるようになったことで、環境微生物を対象とした研究が爆発的に進んでいると言える。特に、腸内細菌叢はヒトの疾病との関連が示唆されており、腸内メタゲノム解析は世界各国で熾烈な競争が繰り広げられている［4, 5, 6, 7］。本稿では、このようなメタゲノム・メタ16S解析において、バイオインフォマティクスが何をしているか、どういう役割を担っているかについて紹介する。

メタ16S解析

メタゲノム解析というと、その定義は環境中の微生物の全遺伝子を指すが、16S rRNA遺伝子の塩基配列のみを対象とした解析（メタ16S解析：英語では、16S rRNA gene amplicon sequencing analysis等のように表記されることが多い）が行われることも多く、メタ16S解析をメタゲノム解析と呼ぶ研究者もいる。従来は、PCRで16S rRNA遺伝子を増幅し、DGGE（Denaturing Gradient Gel Electrophoresis）などの変性剤濃度勾配ゲルを用いて16S rRNAの塩基配列を異なるバンドとして分離し、それぞれのバンドに由来する塩基配列を個別に決定していた［8］。しかし、主にIllumina社製の次世代DNAシーケンサーを用いて16S rRNAを直接配列決定することが可能になり、これをメタ16S解析と呼んでいる。したがって、このメタ16S解析では、大量の16S rRNA遺伝子の配列が得られる。一般的に行われている解析フロー（図1）では、特定の16S rRNA領域をペアエンドでシークエンスする。このとき、目的の領域の両側からシーケンスしているため、ある程度の領域が重なるようにすることで、シーケンス結果のフォワード側の配列とリバース側の配列を組み合わせて、より長い16S rRNAの配列を得ることができる。16S rRNA遺伝子の塩基配列は種の同定に用いられるため、塩基配列が長い方が種の同定の精度が高くなる。このようにして得られた16S rRNA遺伝子配列は、クオリティチェックを行った上で、キメラ配列を除去する。ここでいうキメラ配列とは、PCRの際に発生するアーティファクトのことで、現実には存在しない配列のことである。このキメラ除去の工程を経て、得られた配列は、クラスタリングなどのバイオインフォマティクス処理を行い、OTU（Operational Taxonomy Unit）にまとめられる。16S rRNA配列を一つずつ処理する場合より、類似性に基づいて同じグループのものを最初にクラスター化した方が、最終的に処理すべき対象を減らすことが出来るという意味がある。実際には97％以上等を基準としたIdentityに基づくクラスタリングが行われることが多いが、これは基本的にほぼ同一の配列を1つのグループにまとめる処理と言える。USEARCH［9］等のツールがこのプロセスでよく利用されている。配列数が非常に多く、計算コストを下げる必要がある場合に重要な処理だと言えるが、十分な計算能力がある場合には、この処理を行わず、すべての16S rRNA配列を独立して処理するアプローチもある。その後、得られた配列は16S rRNA遺伝子配列のデータベース［10, 11, 12］との相同性検索を行う。クラスタリングを行った場合は、各OTUにおいて代表的な配列を使用することになる。最終的には、相同性検索の結果、得られたIdentity値に基づいて、種または属などの系統分類が決められる。このプロセスで最もよく使われるデータベースを表1にまとめた。これらの16S配列データベースには共通の配列情報が含まれているため、重複する部分も多いが、それぞれが独自の配列の収集にも力を入れている。これらのメタ16S解析で最もよく利用されているツールが、mothur［13］やQIIME［14］であり、最終的に得られる系統プロファイルについての可視化等の機能も充実している。メタ16S解析では、次の章で紹介するメタゲノム解析よりも簡単で安価なため、非常によく使われる手法であるが、種や株レベルのより詳細な分類での解析に限界があることには注意が必要である。

図１：メタ16S解析の流れ

表1：16S rRNA遺伝子配列データベース

データベース	16S rRNA 配列	URL
RDP（release 11）	3,356,809	https://rdp.cme.msu.edu
SILVA（release 138.1）	9,469,124	https://www.arb-silva.de
Greengenes（release 13_5）	1,262,986	https://greengenes.secondgenome.com

メタゲノムデータの解析

次世代DNAシーケンサーの登場により、DNAの塩基配列決定のスピードが飛躍的に向上し、同時に塩基配列決定のコストも非常に低くなってきた。その結果、メタゲノム解析も比較的容易に行えるようになってきたと言える。このような状況のため、世界中で行われているメタゲノム解析プロジェクトの数も増加している。また、1つのプロジェクトでシークエンスされるメタゲノムサンプルの数も飛躍的に増加している印象である。最近では、人の健康への関与から、ヒト共生細菌叢、特に腸内細菌叢のメタゲノム研究が顕著に増加している［3, 5, 6, 15, 16, 17, 18］。メタゲノム解析では、ある環境試料から抽出したDNA全体を次世代DNAシーケンサーで読み取る。そのため、前述のメタ16S解析よりもはるかに大きなデータセットを扱うことになる。一般的なメタゲノム解析では、まず得られた塩基配列のクオリティチェックや宿主ゲノム等の解析対象としないゲノム配列の除去を行った後、遺伝子の配列をde novoで推定することが多い（図2）。参照できる細菌のゲノム配列がわからないため、一から遺伝子配列の予測が必要となる。このde novoでの遺伝子配列の再構成は、リード配列間の共通部分をのりしろとして見つけ、それらを連結していく作業である。実際には遺伝子配列ではなく、ゲノム配列の一部を再構成していく、つまり、コンティグを作っていく作業であり、その後に遺伝子配列部分の推定をすることになる。ヒトゲノム解析でも同様であるが、参照できるゲノム配列がない状態で、ショットガンシーケンスを実施すると、このようなde novoでのゲノム再構成が必要な場合が多い。このようにコンティグを作りその中の遺伝子配列を相同性検索に基づいて同定することで、その環境中の遺伝子組成を観察することが出来るようになる。しかしながら、これらのプロセスは多くのリード数が必要とし、シーケンスコストと計算パワーも必要になる。最終的には、参照ゲノム上の遺伝子配列、あるいはde novoで推定された遺伝子配列に対して、元のリードをマッピングすることで、それぞれの遺伝子がどの程度その環境中に存在するかを相対量として定量化する。それぞれの遺伝子にマップされるリード数にはばらつきがあるが、全リード中の割合という形で相対量として表現することで、他のサンプルとの比較を実施する事が多い。

図２：メタゲノム解析におけるリードアセンブリ

メタ16S解析からのメタゲノムの推定

上述したようにメタゲノム解析は、シーケンスコストも計算パワーもそれなりに必要で、かなり面倒な部分が多い。もちろん、その分、得られる情報量も多く、遺伝子レベルで議論したい場合には、メタゲノム解析が必要な場面も多いと思われる。しかしながら、多くの研究者は、コストやインフォマティクスの経験の問題もあり、とりあえずは、メタ16S解析から始めるということも多いものと推測される。そこで、メタ16S解析をすることになるが、当然のことながら、16S解析でわかるのは種や属といった系統の組成しかわからない。そこでなんとか16S rRNA配列だけから、メタゲノム解析のような遺伝子レベルの議論ができないかということになる。こういう場合に、メタ16S解析のデータからメタゲノム解析のような遺伝子組成を推定する方法を利用することがある。筆者が開発したバーチャルメタゲノム法［19］も同様のことができるが、より利用されているのはpicrust［20, 21］という米国の研究グループが開発した手法である。16S rRNA遺伝子配列からゲノムの遺伝子構成を推測する手法では、基本的にゲノム配列が決定されている生物種の系統樹の中で、ターゲットとしてゲノムの遺伝子構成が知りたい16S rRNA配列がどこにマッピングされるかに基き、その近縁ゲノムの遺伝子組成を元に、対象の遺伝子構成を推定するという手法である。進化的に近縁種のゲノムの中で保存されている遺伝子は高度に保存されていることが期待できるため、そのような遺伝子の保存度に基づいて、遺伝子を推定をする。この手法を用いれば、メタゲノム解析をすることなく、コストが安いメタ16S解析だけでメタゲノム解析と同様の遺伝子レベルでの解析ができるという点で非常に大きなメリットがある。しかしながら、あくまで予測した結果でしか無く、遺伝子の存在の有無を確定的に議論することには制限がある。

メタゲノムアセンブルゲノム

メタゲノム解析では、上述したようにde novoでリードをアセンブリしてコンティグを作り、そこから遺伝子配列の推定をする。このコンティグを作成する部分が、リード間の短いのりしろの情報だけに基づいているため、あまり精度が高くない、ということが言われるようになっている。ロングリードではないシーケンス情報に基づいてリードを結合しているため、ノイズのような間違ったアセンブルもある一定の割合で含まれる可能性は考慮しないといけない。さらに、このようなコンティグの場合、なかなか元の環状ゲノム配列まで再構築することが難しい事が多い。そこで、この問題を少しでも解決するために、メタゲノムアセンブルゲノム（Metagenome Assembled Genome: MAG）という概念がある（Kang D.らの文献［22］のFig.1参照）。まず、生のリード配列からコンティグを作るところは同じである。次に、得られたコンティグのシーケンスの深さ（Coverage）やDNA組成のパターン等の情報から同じ系統に属しているであろうコンティグを分類する。この概念は、環境中の種の分布が均一ではなく、それぞれの系統によって一定量で存在している場合に、DNAシーケンスのCoverageがその量と相関しているという仮説に基づいている。また、DNA組成のパターンも系統によって特徴があるため、これらの情報を元に分類する。このように系統毎に分けられたコンティグを使って可能な限り元の環状ゲノムの再構成を試みたものをMAGと呼んでおり、多くの研究で利用されている［23, 24, 25, 26, 27］。MAGを取得するためのツールとして、MetaBAT［22］やMaxBin［28］等が開発されている。実際の種のゲノムを完全に再現しているわけではない可能性があるため、通常のコンプリートゲノム配列とは異なるが、環境微生物のゲノム解析では、この系統ごとのMAGというゲノム配列での解析が現在主流になりつつある。

遺伝子機能解析

メタゲノムデータに含まれる遺伝子が予測されると、その後に、その遺伝子の機能カテゴリーの推測が実施される。その場合、COG［29］、eggNOG［30］, KEGG［31］どがよく用いられている。遺伝子配列から様々な機能カテゴリを推論するツールが開発されており、それらを利用することが多い。さらに一歩先に解析を進める場合、パスウェイ解析やネットワーク解析を実施することがある。KEGG Atlas［32］やiPath［33］を利用すれば、既存の代謝系へのマッピングが容易に実現する。また、FuncTree［34］というツールは、すべての機能カテゴリに同時にマッピングしてツリー表示するので、対象のメタゲノム中の遺伝子が、どの機能カテゴリに偏っているかが一目で確認することが可能である。これらの遺伝子機能推定ツールを利用しつつ、メタゲノム全体としての機能を推定することや、それぞれの微生物が環境中でどのような活動をしているかを推測することになる。

おわりに

メタゲノム・メタ16S解析を実施する場合、DNA配列のシーケンシングは非常に簡便、かつ安価に実施できるようになってきた。今後ますます多様な環境での解析が進展するものと期待される。特に、腸内細菌叢のような人の疾患と関連する可能性が指摘されている領域はより詳細な研究が必要とされており、バイオインフォマティクス研究者の今後の活躍がさらに期待されている分野だと言える。

References

[1] Tyson GW, Chapman J, Hugenholtz P, Allen EE, Ram RJ, Richardson PM, et al. Community structure and metabolism through reconstruction of microbial genomes from the environment. Nature. 2004;428: 37-43. doi:10.1038/nature02340
[2] Venter JC. Environmental Genome Shotgun Sequencing of the Sargasso Sea. Science. 2004;304: 66-74. doi:10.1126/science.1093857
[3] Qin J, Li R, Raes J, Arumugam M, Burgdorf KS, Manichanh C, et al. A human gut microbial gene catalogue established by metagenomic sequencing. Nature. 2010;464: 59-65. doi:10.1038/nature08821
[4] Qin J, Li Y, Cai Z, Li SS, Zhu J, Zhang F, et al. A metagenome-wide association study of gut microbiota in type 2 diabetes. Nature. 2012;490: 55-60. doi:10.1038/nature11450
[5] Fan Y, Pedersen O. Gut microbiota in human metabolic health and disease. Nature Reviews Microbiology. 2021;19: 55-71. doi:10.1038/s41579-020-0433-9
[6] Round JL, Mazmanian SK. The gut microbiota shapes intestinal immune responses during health and disease. Nature Reviews Immunology. 2009;9: 313-323. doi:10.1038/nri2515
[7] Chen Y-Y, Chen D-Q, Chen L, Liu J-R, Vaziri ND, Guo Y, et al. Microbiome-metabolome reveals the contribution of gut-kidney axis on kidney disease. Journal of translational medicine. 2019;17: 5. doi:10.1186/s12967-018-1756-4
[8] Hiraki A, Tsuchiya Y, Fukuda Y, Yamamoto T, Kurniawan A, Morisaki H. Analysis of How a Biofilm Forms on the Surface of the Aquatic Macrophyte Phragmites australis. Microbes and Environments. 2009;24: 265-272. doi:10.1264/jsme2.ME09122
[9] Edgar RC. Search and clustering orders of magnitude faster than BLAST. Bioinformatics. 2010;26: 2460-2461. doi:10.1093/bioinformatics/btq461
[10] DeSantis TZ, Hugenholtz P, Larsen N, Rojas M, Brodie EL, Keller K, et al. Greengenes, a Chimera-Checked 16S rRNA Gene Database and Workbench Compatible with ARB. Applied and Environmental Microbiology. 2006;72: 5069-5072. doi:10.1128/AEM.03006-05
[11] Cole JR, Wang Q, Fish JA, Chai B, McGarrell DM, Sun Y, et al. Ribosomal Database Project: data and tools for high throughput rRNA analysis. Nucleic Acids Research. 2014;42: D633-D642. doi:10.1093/nar/gkt1244
[12] Quast C, Pruesse E, Yilmaz P, Gerken J, Schweer T, Yarza P, et al. The SILVA ribosomal RNA gene database project: improved data processing and web-based tools. Nucleic Acids Research. 2012;41: D590-D596. doi:10.1093/nar/gks1219
[13] Schloss PD, Westcott SL, Ryabin T, Hall JR, Hartmann M, Hollister EB, et al. Introducing mothur: Open-Source, Platform-Independent, Community-Supported Software for Describing and Comparing Microbial Communities. Applied and Environmental Microbiology. 2009;75: 7537-7541. doi:10.1128/AEM.01541-09
[14] Bolyen E, Rideout JR, Dillon MR, Bokulich NA, Abnet CC, Al-Ghalith GA, et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 2019;37: 852-857. doi:10.1038/s41587-019-0209-9
[15] Li J, Jia H, Cai X, Zhong H, Feng Q, Sunagawa S, et al. An integrated catalog of reference genes in the human gut microbiome. Nature biotechnology. 2014;32: 834-841. doi:10.1038/nbt.2942
[16] Arumugam M, Raes J, Pelletier E, le Paslier D, Yamada T, Mende DR, et al. Enterotypes of the human gut microbiome. Nature. 2011;473: 174-180. doi:10.1038/nature09944
[17] Human Microbiome Project Consortium. Structure, function and diversity of the healthy human microbiome. Nature. 2012;486: 207-214. doi:10.1038/nature11234
[18] Sepich-Poore GD, Zitvogel L, Straussman R, Hasty J, Wargo JA, Knight R. The microbiome and human cancer. Science. 2021;371: eabc4552. doi:10.1126/science.abc4552
[19] Okuda S, Tsuchiya Y, Kiriyama C, Itoh M, Morisaki H. Virtual metagenome reconstruction from 16S rRNA gene sequences. Nature Communications. 2012;3. doi:10.1038/ncomms2203
[20] Langille MGI, Zaneveld J, Caporaso JG, McDonald D, Knights D, Reyes JA, et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 2013;31: 814-821. doi:10.1038/nbt.2676
[21] Douglas GM, Maffei VJ, Zaneveld JR, Yurgel SN, Brown JR, Taylor CM, et al. PICRUSt2 for prediction of metagenome functions. Nature Biotechnology. 2020;38: 685-688. doi:10.1038/s41587-020-0548-6
[22] Kang DD, Froula J, Egan R, Wang Z. MetaBAT, an efficient tool for accurately reconstructing single genomes from complex microbial communities. PeerJ. 2015;3: e1165. doi:10.7717/peerj.1165
[23] Almeida A, Mitchell AL, Boland M, Forster SC, Gloor GB, Tarkowska A, et al. A new genomic blueprint of the human gut microbiota. Nature. 2019;568: 499-504. doi:10.1038/s41586-019-0965-1
[24] Parks DH, Rinke C, Chuvochina M, Chaumeil P-A, Woodcroft BJ, Evans PN, et al. Recovery of nearly 8,000 metagenome-assembled genomes substantially expands the tree of life. Nature Microbiology. 2017;2: 1533-1542. doi:10.1038/s41564-017-0012-7
[25] Nayfach S, Shi ZJ, Seshadri R, Pollard KS, Kyrpides NC. New insights from uncultivated genomes of the global human gut microbiome. Nature. 2019;568: 505-510. doi:10.1038/s41586-019-1058-x
[26] Singleton CM, Petriglieri F, Kristensen JM, Kirkegaard RH, Michaelsen TY, Andersen MH, et al. Connecting structure to function with the recovery of over 1000 high-quality metagenome-assembled genomes from activated sludge using long-read sequencing. Nature Communications. 2021;12: 2009. doi:10.1038/s41467-021-22203-2
[27] Wilkins LGE, Ettinger CL, Jospin G, Eisen JA. Metagenome-assembled genomes provide new insight into the microbial diversity of two thermal pools in Kamchatka, Russia. Scientific Reports. 2019;9: 3059. doi:10.1038/s41598-019-39576-6
[28] Wu Y-W, Simmons BA, Singer SW. MaxBin 2.0: an automated binning algorithm to recover genomes from multiple metagenomic datasets. Bioinformatics. 2016;32: 605-607. doi:10.1093/bioinformatics/btv638
[29] Galperin MY, Makarova KS, Wolf YI, Koonin E v. Expanded microbial genome coverage and improved protein family annotation in the COG database. Nucleic Acids Research. 2015;43: D261-D269. doi:10.1093/nar/gku1223
[30] Huerta-Cepas J, Szklarczyk D, Heller D, Hernández-Plaza A, Forslund SK, Cook H, et al. eggNOG 5.0: a hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses. Nucleic Acids Research. 2019;47: D309-D314. doi:10.1093/nar/gky1085
[31] Kanehisa M, Araki M, Goto S, Hattori M, Hirakawa M, Itoh M, et al. KEGG for linking genomes to life and the environment. Nucleic acids research. 2008;36: D480-D484. doi:10.1093/nar/gkm882
[32] Okuda S, Yamada T, Hamajima M, Itoh M, Katayama T, Bork P, et al. KEGG Atlas mapping for global analysis of metabolic pathways. Nucleic acids research. 2008;36. doi:10.1093/nar/gkn282
[33] Yamada T, Letunic I, Okuda S, Kanehisa M, Bork P. IPath2.0: Interactive pathway explorer. Nucleic Acids Research. 2011;39. doi:10.1093/nar/gkr313
[34] Darzi Y, Yamate Y, Yamada T. FuncTree2: an interactive radial tree for functional hierarchies and omics data visualization. Kelso J, editor. Bioinformatics. 2019;35: 4519-4521. doi:10.1093/bioinformatics/btz245

著者略歴

奥田修二郎
新潟大学医学部メディカルAIセンター教授。博士（理学）。腸内細菌叢やがんゲノムの研究に従事。2021年4月より現職。医療用人工知能の開発にも研究の幅を広げる。
研究室ホームページ：https://bioinfo.med.niigata-u.ac.jp/

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）