Abstract
分子系統学は生物学の基盤であり、我々は情報から生物学的知見を取り出す過程で、その恩恵を陰に陽に受けてきた。同時に、分子系統学は革新的な手法やソフトウェアの開発が新たな分野の開拓に直結する、アルゴリズム・ソフトウェア開発者の桧舞台でもある。例えば、1987年に登場した近隣結合法は大規模なTree of Lifeの構築を可能にした。また、MAFFTやIQ-TREEといった高速かつ高精度なソフトウェアは、BLASTが情報生物学の基盤技術であるのと同様に、進化学を下支えする必要不可欠なインフラとなっている。本総説では、まず分子系統学を構成する「標準手法」の理論と実装を解説する。さらに近年勃発した「標準手法」をめぐる論争をまとめ、最後に、現時点でできる最善の分子系統解析アプローチについて議論しながら、将来の生物情報学者、進化学者、アルゴリズム・ソフトウェア開発者をこの魅力的な分野へといざないたい。
1.はじめに
分子系統学と生物情報学は表裏一体の関係にある[1]。生物情報学の基本技術である相同性検索や多重配列アライメント、オーソログ解析などの理論的な基礎はまさに分子系統学にあり、生物学の基盤たる分子系統学の地位は生物情報学にとっても例外ではない。生命の進化史や進化の機構を明らかにするためには、その前提として「系統樹思考」が不可欠なのである。一方で、生物情報学による高性能なアライメントや系統樹推定技法の開発は塩基・アミノ酸配列に基づいて進化を明らかにする‟分子”系統学の発展を後押しする原動力となっている。例えば、最近開発された高速かつ高精度な系統解析ソフトウェアは、全ドメインを含む巨大な系統樹を再構築することでバクテリアと古細菌の進化的な関係について迫る[2]、あるいは世界中の都市から取得された大規模なメタゲノム情報を使って系統解析をすることで世界的なバクテリアやウイルスの移動を明らかにする[3]といった研究を可能にしている。このように、分子系統学者と生物情報学者の両方にとって、互いの分野は基礎であり同時に応用でもあるという密接な関係にあるのである。
歴史を振り返ると、1958年に距離行列に基づく最初の系統樹推定アルゴリズムが考案されて以降様々な系統解析手法が考案され、アルゴリズムの優劣だけではなく哲学的な(時には不毛な)激しい論争が繰り広げられてきた[4]。しかし、2000年代以降になるとそのような論争も落ち着き、解析手順が体系立てて整備され、以下の五つのステップから構成される「標準手法」が確立されるに至った[5]。
①多重配列アライメント(Multiple sequence alignment; MSA)の構築
②MSAから上手くアライメントできなかった領域の除去(トリミング)
③トリミングしたMSAに基づいた進化モデルの選択
④選択した進化モデルのもとでの、MSAを最もよく説明する系統樹の推定
⑤系統樹の確からしさの評価
これは1960年代以来の分子系統学の分断を乗り越え、統一された土台の上で系統樹を推定し、議論することを可能にしたという点で非常に有意義であった。しかし、次世代シーケンサ(next generation sequencer; NGS)時代を迎え、分子系統学は新たな問題に直面している。第1の問題は日々大量に生成される配列情報である。NGSによるデータ生成のペースに追いつき、巨大な系統樹をシステマチックに更新していく需要が生じているが[6, 7]、そのためには大規模なデータに対応した標準的な手法の整備が必要となる[8]。しかし、大量かつ多様な配列群の解析にはどのような系統解析手法が適しているかについて我々は十分な知識を蓄積できていない。第2の問題は、巨大系統樹を構築した際に度々‟発見”される新規系統群である[9]。代表例としてはバクテリア系統群CPR(Candidate phyla radiation)や古細菌系統群DPANN groupが挙げられる。こういった新規系統群は系統樹推定の手順を変えるだけで消失しまうことがあり、系統群の実在性が、手法の選択という主観的な操作に左右される事態となっている[10]。第3の問題は、大規模計算技術の普遍化を背景に、これまで「標準手法」と見なされてきた分子系統学の解析手順に様々な角度から問題提起がなされていることである[11, 12, 13]。例えば、多重配列アライメントのトリミングや、モデル選択など、標準手法に当たり前に組み込まれてきた手順についても、その必要性や有効性が改めて問われている。このように我々は今、分子系統学のまさにフロンティアに生きているのである。
本総説では、まず分子系統学の基礎知識として樹形と進化モデルについて簡単に説明し、次にアライメントから系統樹推定に至る基礎的な理論とその実装を概説する。同時に分子系統解析が難しい本質的な理由を列挙し、それを踏まえて論争のポイントをまとめ、今後の方向性を示す。
2.分子系統解析の基礎
2.1 分子系統解析の3要素
分子系統解析は①配列データ、②進化モデル、③系統樹推定手法の三つの要素から構成されている(図1)。後述する通り主要な系統樹推定方法は(最節約法も含めて)全て進化モデルに基づいており、進化モデルと配列データの適合度は系統樹推定の精度を大きく左右する。従って、数ある選択肢の中から、配列データに合わせて適切な進化モデルや系統樹推定手法を選ぶことが、より良い分子系統解析のためには欠かせない。ここでは手法の説明に入る前に、まず各要素にまつわる基本的な概念を確認する。
①配列データ:分子系統解析で最初に行う作業は配列データを用意することであり、そこで大事な概念が相同(Homology)である。ある二つ以上の配列(あるいは個体、種、群集など)が共通の祖先に由来するとき「相同である」と言う。系統樹推定の前提が「与えられた全ての配列が共通の祖先に由来すること」であるため、相同ではない配列は使用するデータから除去しなくてはならない。特に、共通祖先に由来しないが類似していることを「同形(Homoplasy)である」と言い、互いに類似した配列群からHomologyとHomoplasyをいかに区別するかが重要な課題になる。
②進化モデル:進化の過程では単一置換だけではなく、多重置換や平行置換など、様々な種類の置換が起こる(図2a)。一般的には、我々は進化過程を直接観察することはできないので、例えば多重置換はTからAへの1回のみ置換が起こったサイトとして、あるいは平行置換はTのまま置換が起こらなかったサイトとしてしか認知することができない。このように観察可能な置換と実際に起きた置換に食い違いがあることが進化解析を難しくしている。その解決のために開発されたのが進化モデルである(図2b-d)。例えば、JC69モデル[14]は任意の塩基間の置換速度が一定(図2bcでa=b=c=d=e=f)、かつ配列データの塩基頻度も全て同一(図2cでπA=πT=πC=πG)であることを仮定した最も単純な進化モデルである。このモデルの元では、t時間後のサイトあたりの置換数はポアソン分布に従うと予測される。そしてJC69モデルに様々な仮定を加えることでさらに複雑な進化過程を表現したモデルを構築することができる。例えば実際の塩基頻度を反映したものがF81モデル[15]、プリンとピリミジンの違いを考慮して置換速度のパラメータを一つ増やしたものがK80モデル[16]、その両方をJCモデルに加えたものがHKY85モデル[17]である(図2d)。さらに、任意の塩基間における双方向の置換数の期待値が等しいことを仮定した上で、最大限一般化すると一般時間可逆モデル(General time reversible model, GTR model)になる[18]。また、進化モデルには+F, +I, +Γという3種類の補正を加えることができる。+Fは塩基頻度項の追加を意味しており、例えばF81は(実際にこのように表現することはないが)JC69+Fに等しい。また+Iは進化的に不変なサイトを一定の割合で認めるオプションであり、+Γはサイト毎の変異速度のばらつきをΓ分布に従って補正するオプションである。

ここまでは塩基配列の進化モデルについて説明してきたが、アミノ酸配列も原理的には同じ考え方で進化モデルを構築することができる[19]。ただし、塩基配列が4種類の塩基からなるのに対してアミノ酸配列は20種類の残基からなるため、個別の残基間の関係を進化モデルに落とし込むことは困難である。そのため、塩基配列のGTRモデルを20残基に拡張したうえで、パラメータを経験的な値で決定したものを用いることが多い。このようにして最初に構築されたモデルはDayhoff[20]であり、そこからモデルの構築にあたって参照するタンパク質の量と質を改善するなどしてJTT[21]、WAG[22]、LG[23]といった改訂版モデルが開発されていった。また、ウイルスゲノムやミトコンドリアゲノム、葉緑体ゲノムなどは核ゲノムとは大きく異なる置換パターンを持つことから、個別事例に対応したFLU[24]、HIV[25]、mtREV[26]といったモデルも開発され、一般に使われている。
③系統樹推定手法:系統樹推定手法については後述する。ここでは系統樹に関する基礎知識を整理しておく(図2e)。系統樹は種(あるいは遺伝子や個体、群集など)の進化的な関係を木構造で表現したものである。枝と節から構成され、外部節(葉)は現生種(1,2,3,4,5)、内部節は祖先種を表している。根は系統樹の全外部節の共通祖先を表しており、根を持つ系統樹を有根系統樹(図2e)、根を持たない系統樹を無根系統樹(図4f)と呼ぶ。また、外部節に接続する枝を外部枝、それ以外の枝を内部枝と呼び、それぞれ進化距離や経過時間という形で長さを与えることができる。さらに推定した内部枝の確からしさを表す指標としてよく用いられるのがBootstrap値(BS値)や事後確率であり、どちらかあるいは両方が枝に付与される。以上の情報を含んだ系統樹(図2e)はその下に示す文字列(Newickフォーマット)として表現することができる。
2.2 分子系統解析はなぜ難しいか?
分子系統解析には(1)膨大な計算コストがかかる、(2)高精度な系統樹推定を阻害する様々な要因がある、(3)手法やソフトウェアの評価が難しい、といった困難が存在する。ここでは、そのような困難をもたらす分子系統学特有の問題について議論する。
まず第1の問題は「正解を直接観察できないこと」である。実験室内進化実験おける大腸菌の進化[27]や、スペイン風邪以降のインフルエンザウイルスの進化[28]、2019年以降のSARS-CoV-2の進化[29]等はそれぞれ人類が直接観察することができた進化であるが、これらはむしろ例外的で、一般的には進化は直接観察することのできない一回性の事象である。したがって、正解によって答え合わせをすることができない問題を解かなければならないことになる。このことは実際に系統樹を推定する場面のみならず、手法開発においても大きな問題となる。例えば、ある目的関数の最適化問題として系統解析の問題を解こうとしても、その目的関数自体が適切なものか判断することは難しい。より本質的な問題として「期待系統樹と実現系統樹の食い違い」がある。期待系統樹は実際の時間経過を反映した系統樹であり、実現系統樹は観察された置換数を反映した系統樹である。両者は一般的には異なる系統樹となる。なぜなら図2aのような様々な種類の置換が起こることで、進化時間と置換数がずれるからである。このことは、仮に与えられたデータに対して最適な系統樹(=実現系統樹)を推定できたとしても、真の系統樹(=期待系統樹)には決してたどり着けないことを意味している。第2の問題は「探索空間が圧倒的に広いこと」である。配列データがn本あった時、ありえる系統樹の総数はTn=(2n−5)Tn−1=(2n−5)!!であり[30]、例えばn=20で宇宙の全ての恒星の数、n=50で宇宙の全ての原子数に迫る数となる(!!は二重階乗。例えば7‼=7×5×3×1)。したがって、全ての系統樹を解析しつくすことで最適な系統樹を決定することは現実的ではなく、ある目的関数を最適化するような樹形を広大な樹形空間のなかで探索する、というようなアプローチで系統樹を推定することになる。
そのほかにも系統樹推定はデータの性質に様々な影響を受ける。(1)配列長が著しく短いと配列から取得できる情報量が減少し、正確な系統樹を推定することが困難になる。(2)配列が多い場合は探索空間が広くなり、計算コストが増大する。配列が少ない場合はどの樹形についても目的関数の値がほとんど等しくなってしまうため、目的関数の僅かな計算誤差が最適な系統樹の選択を妨げる要因になる[31]。(3)進化距離はより深刻な問題を引き起こす。配列間の進化距離が全体的に近すぎると変異数が少なくなり利用可能な情報量が少なくなる。逆に、全体的に進化距離が遠すぎると変異数が過多になり、やはりMSAから取得可能な情報が少なくなる。(4)枝ごとの進化距離のバラツキも問題になる。相対的に極端に長い枝が存在する場合、長枝誘引という現象が起きることが知られており[32]、特に最節約法への悪影響が大きい。一方で、枝が著しく短い場合は枝の信頼性が低くなるという問題が起こる。さらに、枝ごとの進化速度のバラツキが全体的に大きい場合、特に尤度関数に基づく方法は悪影響を受けやすい。
3.分子系統解析の理論
1章で述べた通り、分子系統解析は(1)MSAの構築、(2)トリミング、(3)進化モデルの選択、(4)系統樹推定、(5)系統樹の評価、の五つのステップからなる「標準手法」に則って行われることが多い(図3)。本章では各ステップの理論的基礎を説明する。なお、MSAの構築と系統樹推定には、多くの場合それぞれGuide treeとInitial tree(Starting treeなどとも)と呼ばれる系統樹を準備する必要がある。つまり、系統樹推定の前提として系統樹が必要になることから「卵(=系統樹)が先か、鶏(=系統樹推定)が先か」という哲学的な問題が存在していることになる。実際には、(1)MSAを必要としない方法でGuide treeを作成、(2)そのGuide treeに基づいてMSAを構築、(3)必要に応じてMSAに基づいてInitial treeを作成、(4)最後にInitial treeを出発点にしてより精度の高い方法で改めて系統樹を構築する、という手順をとるので、「卵が先か、鶏が先か」という問題は一応回避される。しかし、後述する通り、Guide treeとInitial treeは系統樹推定の精度を大きく左右することがあるため、慎重な取り扱いが必要である[33, 34]。
3.1 多重配列アライメント
多重配列アライメント(MSA)は、主に以下の五つの種類に分類される。一つ目はExact methodである。Needleman & Wunschの動的計画法[35]を3本以上の配列に拡張した方法であり、他の方法と違ってGuide treeを必要としない。厳密解が求まるが、計算時間はO(2N LN)のオーダー(N、Lはそれぞれ配列数と平均配列長)となり実用的な方法ではない。二つ目はProgressive alignmentである。この方法は、まず与えられた配列からGuide treeを構築し、そのGuide treeに従って最も類似した配列から順にアライメントを追加していくことで、MSAを構築する。Clustal[36]が代表的な実装になる。1975年にFitchらによって提案され[37]、その後、Hogewegらによる5S rRNAへの適用[38]とFengらによる一般化[39]を経て実用化されていった。計算オーダーはO(N4+L2)と非常に高速であるため、現在でもよく使われている。なお、Progressive alignmentは配列数が増加すると精度が大幅に下がるという問題があったが、Progressive alignmentとは逆に、最も似ていない配列から順にアライメントを追加していくことでその精度を大幅に改善するRegressive alignmentという方法が提案されており[40]、数百万もの配列からなる高精度なMSAの構築を可能にしている。三つ目はIterative approachesであり、これはProgressive methodを繰り返し行うことで精度を向上させる方法である。MUSCLE[41]が代表的な実装である。計算オーダーはO(N4+NL2)でとProgressive alignmentと同程度でありながら、より高い精度でMSAを構築することができる。四つ目はConsistency-based methodであり、MAFFT[42]が代表的な実装である。こちらはIterative approachを基盤に、さらにPairwise sequence alignmentとMSAの一貫性を保つようにアライメントを更新することで、計算コストをIterative approachesと同じ規模におさえながら、さらに高い精度のMSAを構築する。五つ目はStructure-based methodで、立体構造を反映したアライメント方法である。T-Coffee[43]が代表的な実装で、五つの方法の中では最も精度が高いMSAを構築することができるが、同時にExact methodをのぞいて最も計算時間のかかる方法であり、事前に配列数を十分に減らすなど使用条件を慎重に整える必要がある。
3.2 トリミング
MSAには上手くアライメントできない領域や、そもそも相同ではない領域が含まれることがあり、そういった領域は系統樹推定に悪影響を及ぼすことが知られている。そこで、系統樹推定に進む前にその領域を取り除く処理を行うことが一般に行われている。かつては手作業で取り除くしかなかったが、効率だけではなく恣意性が混入することも問題になり系統樹推定にとって大きなボトルネックとなっていた。現在ではアライメントできない領域を検出して除去するblock-filtering(e.g. TrimAl[44])や、相同ではない部分配列を検出して除去するsegment-filtering(e.g. HmmCleaner[45])を自動で行うソフトウェアが用いられることが多い。
3.3 モデル選択
後述するとおり、系統樹推定手法はいずれも進化モデルを使用する。そこで、系統樹推定を行う前に、与えられた配列に基づいて進化モデルを選択することになる[46]。これまでに、モデル選択のためのさまざまな方法が提案されてきたが、現在ではAIC(Akaike information criterion)やBIC(Bayesian information criterion)といった情報量基準を用いて選択することが一般的であり、以前によく用いられてきた尤度比検定よりも適切な進化モデルを選択できるとされている[47]。AICは
で定義される[
48]。ここで
Lはある進化モデルでの尤度、
pはパラメータの数であり、AICが最小になる進化モデルを選ぶことで進化モデルの尤度と複雑さのバランスを取ることができる。AICは現在でもよく使われる方法であるが、サンプルサイズが無限大であることを仮定していることに注意が必要で、サンプルサイズが小さいときはパラメータの増大コストを過小評価してしまうという問題がある。そこで、正規分布を仮定して有限のサンプルサイズに対応するようAICを補正したのがAICcである[
49]。
(2)
AICc
=
−
2
ln
L
+
2
p
+
2
p
2
+
2
p
n
−
p
−
1
|
ここでnは配列の長さである。n−p−1≤0の時はAICcを計算することができないが、nがpよりも十分に大きな場合、AICcをAICの代わりに用いることでパラメータの増大を防ぐことができる。BICはベイズ統計学を背景とした規準であり、
(3)
BIC
=
−
2
ln
L
+
p
ln
n
|
で定義される[
50]。BICは
nが十分に大きな場合、AICcと同様に、AICよりもシンプルな進化モデルを選択する傾向がある。
3.4 系統樹推定
現在、標準的な系統樹推定手法として用いられているのは、近隣結合法(Neighbor joining method, NJ法)、最節約法(Maximum parsimonious method, MP法)、最尤法(Maximum likelihood method, ML法)、及びベイズ法(Bayesian inference method, BI法)の四つであり、それぞれ異なる目的関数の最適化問題として系統樹を選択する(表1)。これらは、解析手順の観点から大きく三つに分類することができる。(1)まずNJ法を代表的な手法とする距離法(Distance-based method)は選択した進化モデルに基づいて距離行列を構築し、その距離行列から系統樹を推定する。(2)ML法とBI法に代表される形質状態法(Character-based method)は選択した進化モデルに従って、与えられた配列データに対してある目的関数が最小(あるいは最大)になる系統樹を選択する。(3)もう一つの重要な形質状態法であるMP法は、与えられた配列データについて置換数がもっとも少なくなる系統樹を選択する。ただし、最節約法は‟明示的には”進化モデルを使用しないため、モデル選択をスキップする(なお、実際には加重最節約法は置換コスト関数という形で暗に進化モデルを仮定している。また非加重最節約法でもJC69モデルのような一定の置換速度を仮定した進化モデルを使用していると見なすことができる)。1章で触れた通り、この四つの手法をめぐっては、どの手法が最も優れた方法であるか激しい論争が繰り広げられてきたが、現在では、(1)哲学的な論争がひと段落し、(2)遺伝子配列データへの適用が進んで手法の有用性や挙動への理解が進み、さらに(3)どの問題でも最高の性能を示す手法が存在しないことが分かってきたことから、現在では、問題の種類や性質に合わせて適切な方法を選ぶこと自体が標準手法を構成する手順の一部として組み込まれている(図9)。なお、論争の歴史については三中を参照されたい[51]。また、各手法の長所と短所については、例えばYangらの総説が簡潔かつ的確にまとまっている[52]。
表1:系統樹推定の目的関数
手法 |
目的関数 |
近隣結合法 |
NJ法 |
系統樹の枝長の総和 |
最節約法 |
MP法 |
系統樹上で生起した形質変化の回数 |
最尤法 |
ML法 |
与えられた遺伝子配列に対する枝長と進化モデルの尤度 |
ベイズ法 |
BI法 |
与えられた遺伝子配列に対する樹形と枝長と進化モデルの事後確率 |
3.4.1 NJ法
-
概要 NJ法[53]は、最小進化原理(正しい系統樹は総枝長が最短であるという仮定)に基づいて系統樹を再構築する方法であり、距離法(距離行列を基に系統樹を推定する方法)の一つでもある[54, 55]。最小進化原理に基づく距離法は他に非加重平均結合法(Unweighted pair-group method using arithmetic average, UPGMA)、最小二乗法(Least squares method, LS法)、最小進化法(Minimum evolution method, ME法)などがあるが、NJ法は、(1)系統樹を構築する各ステップで最小進化原理を満たす葉のペア(これを近隣と定義する)を決定していくGreedyなアルゴリズムであること、(2)一定の進化速度を前提としないこと、の2点で他の手法と異なっている。LS法やME法は全ての系統樹について総枝長を計算することで最小進化原理を満たす系統樹を決定する方法であり、探索に非常に時間がかかるという難点がある。一方、UPGMAはNJ法と同様に各ステップで最小進化原理を満たす葉のペアを決定するGreedyな手続きを取るため計算効率が良いが、「全ての進化過程で一定の進化速度(ウルトラメトリック、分子時計)」であることを前提とするため、その前提が成立しない場合は間違った樹形を作成してしまう(そして残念ながら多くのケースでこの前提は成立しない)。NJ法は、ウルトラメトリックを緩めた「加法性」という性質が成り立つ条件下において、最小進化原理を満たす系統樹を正しく作成することができるという優れた性質がある[56]。加法性が成り立つとは進化距離と系統樹上での経路の長さが等しいことである。加法性の重要な特徴として、ウルトラメトリックと異なり、枝ごとの進化速度の変化を許容することが挙げられる。例えば、図4aの系統樹上で葉1と葉2をつなぐ経路は内部節aを経路しているが、葉1と葉2の距離d12と、各葉とaの距離d1a、d2aの間に
という関係がある場合、加法性が成り立っていると言う。この時、内部節aとbの距離dabは
(5)
d
ab
=
1
2
(
d
13
+
d
24
−
d
12
−
d
34
)
|
で与えられる(図4b)。この関係式を根拠に「最小進化原理を満たす葉のペア(Neighbors; 近隣)を見つけてそれらを結合する」というステップを繰り返すことで段階的に系統樹の樹形を決定していく方法がNJ法である。

-
アルゴリズム まず、進化モデルに従って距離行列(図4c)を計算し、次に図4dに示すような星状系統樹を作成して枝長の総和S0
(6)
S
0
=
∑
i
∈
L
d
ia
=
1
|
L
|
−
1
∑
i
<
j
∈
L
d
ij
|
を計算する。ここでLは系統樹の葉の集合、|L|は葉の数である。もし2分岐を繰り返して進化してきたならば(複数回の分岐がまったく同時に起こるとは考えにくいためこの仮定は妥当である)、星状系統樹は実際には間違った樹形であると考えられる。したがって、もし最小進化原理が成立しているならば、近隣ペアであるiとj(ここではi=1とj=2)を図4eのように内部節aで結合してくくり出すと、その系統樹の枝長の総和SijはS0よりも小さくなるはずである。Sijは式(4-5)を使って
(7)
S
ij
=
1
2
(
d
ij
−
r
i
−
r
j
+
2
T
)
|
で求められる。ここで
T
=
1
|
L
|
−
2
∑
i
<
j
∈
L
d
ij
、
r
i
=
1
|
L
|
−
2
∑
k
∈
L
d
ik
である。実際には我々は近隣ペアを知らないので、全ての葉の組み合わせの中から最小のSijを与えるiとjのペアを見つけ出し、それらを近隣とする。なお、Tは定数なのでSijを直接計算する代わりに
(8)
D
ij
=
d
ij
−
r
i
−
r
j
|
を用いて最小のSijを与えるiとjを探索することができる。内部節aから、iとjおよび他の葉k∈L, k≠i,jとの距離はそれぞれ
(9)
d
ia
=
1
2
(
d
ij
+
r
i
−
r
j
)
|
(10)
d
ja
=
1
2
(
d
ij
−
r
i
+
r
j
)
|
(11)
d
ka
=
1
2
(
d
ik
+
d
jk
−
d
ij
)
|
で与えられる。そして一つの無根系統樹として全ての葉が結合されるまで、式(9-11)を用いて距離行列を更新しながら、この手続きを繰り返す(図4f)。
3.4.2 MP法
-
概要 MP法[57]は節約原理(ある事象の最良の説明は最小限の仮説に基づくものであるとする原理、いわゆるオッカムの剃刀)を根拠に、系統樹上で発生した進化の事象数(e.g. 塩基置換、アミノ酸置換、形態の変化)を最小にするような系統樹を最良の系統樹として選択する方法である。1966年にHenningにより形態学的形質に対して考案され[58]、アミノ酸配列[59]、塩基配列[60, 61]へと応用されていった。Homoplasyや長枝誘引の問題があるため、現在では塩基配列やアミノ酸配列の解析に用いられることは少ないが、形態情報(e.g. 化石、蝶の羽の模様)に基づいて系統樹を推定する際は、現在でもよく使われている。
-
アルゴリズム MP法のアルゴリズムは大きく分けて(1)与えられた系統樹についてコスト(e.g. 塩基配列やアミノ酸配列の置換数)を算出する、(2)樹形を変化させながら都度(1)に戻ってコストを計算し、最小のコストとなる樹形を探索する、という二つのステップからなる。まず、配列のあるサイトiにおいて、塩基aを節kに割り当てた場合の最小コスト
C
k
i
(
a
)
を以下の再帰関数で定義する。
(12)
C
k
i
(
a
)
=
min
b
(
C
p
i
(
b
)
+
S
ab
)
+
min
b
(
C
q
i
(
b
)
+
S
ab
)
|
ここで、pとqは節kの子節、Sabは塩基aから塩基bへの置換コストである(ちなみに、全てのaについてSaa=0、a≠bについてSab=1と定義した場合は非加重最節約法、それ以外は加重最節約法となる)。ただし、kが葉の場合、そのサイトiの塩基がaに等しいならば
C
k
i
(
a
)
=
0
、それ以外は
C
k
i
(
a
)
=
∞
とする。そして以下のように全サイトの最小コストの総和を取ることで、系統樹の最小コストCを求める。
(13)
C
=
∑
i
=
1
n
min
a
∈
B
C
root
i
(
a
)
|
ここでnは配列の長さ、Bは全ての残基(ここでは塩基配列を扱っているのでB={A,T,C,G})、rootは根となる節である。次に、樹形を変化させながら式(13)で最小コストを計算し、最適な樹形を探索する。そのためにまず、探索の開始点となる仮の系統樹(Initial tree)を用意する。ここではランダムな系統樹、またはUPGMAやNJ法といった距離法で構築した系統樹を用いることが多い。そして、枝を交換しながらより最小コストの小さな樹形を探索する。代表的な樹形探索方法としてはNearest neighbor interchanges(NNI)、Subtree pruning regrafting(SPR)、Tree bisection-reconnection(TBR)が挙げられる。非加重最節約法の例を図5に示す。ここではAAA、AAT、CCA、ACAの四つの配列の系統樹の候補として(a)、(b)、(c)の樹形を列挙しているが、最小コストはそれぞれ3、4、4なので、最節約系統樹は(a)となる。
3.4.3 ML法
-
概要 ML法は、まず進化モデルを固定し、次に与えられた配列群について最も尤度の大きな系統樹を選択する方法である。1967年に遺伝子頻度データに初めて適用され[30]、さらに塩基配列[15]、およびアミノ酸配列へと適用範囲が拡大された[62]。以下説明する通り、厳密にはML法は単に「最大の尤度を持つ樹形を選ぶ」のではなく、「枝長を推定するのにより優れた樹形が、より適切な樹形に近い」とする原理に基づき樹形を選ぶ。この微妙なニュアンスの違いは重要な意味を持つ。すなわち枝ごとに進化速度が著しく異なる場合、枝長の推定誤差が大きくなり、結果として誤った樹形を選択してしまう可能性が高くなるのである。このような問題はあるものの、現在では、複数の優れたソフトウェアが切磋琢磨しながら盛んにアップデートされ続けており、ML法は系統樹推定で最もよく使われる手法となっている。
-
アルゴリズム ML法はまず初めに(1)進化モデルを決定することから始まる。その後はMP法と同様に、(2)与えられた系統樹について尤度を算出し、(3)樹形を変化させてから(2)に戻る、というステップを繰り返して最大の尤度を与える樹形を探索する。ここで使用する尤度は以下のように定義する。まず、与えられた配列のあるサイトkにおける塩基iがt時間後にjになる確率を
P
ij
k
(
t
)
とする。ただし、実際に時間tを観測することは困難なので、代わりに観察可能な置換数の期待値v=rt(rは置換速度)を時間の単位として使用することにし、改めて
P
ij
k
(
v
)
とする。また、
P
ij
k
(
v
)
の具体的な値は3.3節で述べた方法で選択した進化モデルを用いて決定する。この確率を用いて、例えば図6の系統樹のサイトkにおける尤度を
(14)
l
k
=
π
x
1
P
x
1
x
2
k
(
v
1
)
P
x
2
x
3
k
(
v
2
)
P
x
3
x
4
k
(
v
3
)
P
x
1
x
7
k
(
v
4
)
P
x
2
x
6
k
(
v
5
)
P
x
3
x
5
k
(
v
6
)
|
と定義する。ここでv1は内部節1と2をつなぐ枝における置換数、x1は内部節1の塩基、
π
x
1
は内部節1が塩基x1となる事前確率である。また、lkは非常に小さな値になるので、実際には対数尤度ln lkを計算する。さらに内部節1,2,3の塩基は観察できないので全ての塩基について総和をとり、さらに全てのサイトの総和をとることで系統樹全体の対数尤度とする。すなわち
(15)
L
=
∑
k
∑
x
1
∑
x
2
∑
x
3
ln
l
k
|
が目的関数であり、viを変えながらLの最大値を求める。なお、上記の通りこの過程で求まるviはこの樹形での最尤推定である。(3)最後に樹形を変化させながら、最大の尤度を持つ系統樹を探索する。このステップではMP法と同様に、まず探索の開始点となるInitial treeを用意し(MP系統樹、NJ系統樹、UPGMA系統樹、ランダム系統樹など様々な系統樹が使用される)、そこから主にNNIやSPRを用いて樹形を探索する。
3.4.4 BI法
-
概要 BI法は、ML法をベイズ推定の枠組みの中で再構築した方法である。ML法は固定された進化モデルのもと、与えられた配列群を最もよく説明できる最尤系統樹を一つ選択する方法であったが、BI法は与えられた配列群に対し系統樹の事後確率分布を計算する方法である。そして、事後確率分布の最頻値を最大事後確率推定(maximum a posteriori estimation; MAP推定)した系統樹として選択することがよく行われる。しかし、これはBI法の主目的ではない。なぜなら、後述するとおり(特に樹形の事前分布に一様分布を選んだ場合)BI法でMAP推定された系統樹とML系統樹はほとんど一致するため、一つの系統樹を選ぶのであればML法の方が直接的かつ効率が良いためである。したがって、BI法では複数の系統樹を事後確率とともに提示する、あるいは複数の系統樹をまとめてコンセンサス系統樹を作成することこそが主目的になる。これは、系統樹推定が本質的に一つに定まらないケース(e.g. 水平伝播、ドメインシャッフリング、異なる進化過程をたどった遺伝子群)や、複数の系統樹候補が必要となるケース(e.g. 2状態種分化絶滅モデル(BiSSE model)を実行する場合)で有効なアプローチになる。また、化石記録などから分岐年代の推定値が得られる場合、BI法はその情報を事前確率分布として利用することができる[63]。BI法は、1996年以降、Yangらによって系統樹推定に導入され[63, 64, 65, 66]、MrBayes[67]が登場してから、より効率的なアルゴリズムや、より現実的な進化モデル・条件での計算方法が実装され、一般に広く使われるようになった。
-
アルゴリズム 系統樹τiの事前確率分布をf(τi)とした時、配列データXが与えられた時のτiの事後確率分布P(τi|X)はベイズの定理に従って以下のようになる。
(16)
P
(
τ
i
|
X
)
=
f
(
X
|
τ
i
)
f
(
τ
i
)
∑
j
=
1
|
τ
|
f
(
X
|
τ
j
)
f
(
τ
j
)
|
ここで|τ|はとりうる全樹形の数であり、f(τi)は一様事前分布、すなわち
f
(
τ
i
)
=
1
|
τ
|
とおくことが多い。また、f(X|τi)は尤度関数であり、その値は最尤法によって求めることができる。なお、現在ではτiの枝長biと進化モデルが持つ全てのパラメータθも確率分布として予測することが主流であり、実際には
(17)
P
(
τ
i
|
X
)
=
∬
f
(
X
|
b
i
,
τ
i
,
θ
)
f
(
b
i
|
τ
i
,
θ
)
f
(
τ
i
|
θ
)
f
(
θ
)
d
b
i
d
θ
∑
j
=
1
|
τ
|
∬
f
(
X
|
b
j
,
τ
j
,
θ
)
f
(
b
j
|
τ
j
,
θ
)
f
(
τ
j
|
θ
)
f
(
θ
)
d
b
j
d
θ
|
がBI法で求める事後確率分布となる。ここで
f(
bi)、
f(τ
i)、
f(
θ)はそれぞれ
bi、τ
i、
θの事前確率分布である。どちらの式も分子は最尤法を用いて計算することができるが、分母はτが非常に小さい系統樹でない限り、直接計算することは不可能である。そこでBI法ではMarkov Chain Monte Carlo(MCMC)で近似計算を行い、同時に樹形も探索する。MCMCは以下の手順で行う[
63]。
(1)Initial treeとしてある枝長bを持つ系統樹τを用意する。ここでは完全にランダムな系統樹やNJ系統樹、MP系統樹のいずれかを充てることが多い。同時に進化モデルに関するランダムなパラメータセットθも用意し、τの尤度を求める。
(2)以下の処理をk回繰り返す(kには例えば1,000,000回といった数を指定することが多い)。
a.NNIやSPRによってτを変更してτnewを作成し、bとθもわずかに変更したのち、τnewの尤度を求める。
b.τの尤度とτnewの尤度を比較し、τnewの尤度の方が大きければ必ず、小さい場合は一定の低い確率でτをτnewで置き換える。それ以外の場合はτnewは却下しaに戻る。
c.τ、b、θを記録する。
上の手順の中に従ってτを繰り返し更新していくと、いずれτがたどる経路は定常状態に達する。したがって定常状態に達するまでの最初の連続した記録(例えば100,000回分)は捨て、残った記録から一定の回数ごと(例えば1,000回ごと)に記録から標本抽出を行うと、その標本はτの分布を反映したものになっていると考えられる。この標本系統樹群を使うことで式(16-17)の分母を近似的に計算することができ、結果τiの事後確率分布P(τi|X)を求めることができる。前述したとおり、このようにして得た系統樹の事後確率分布から、系統樹を推定するのには主に二つのアプローチがある。一つ目のアプローチは最大事後確率を持つ系統樹を選択することであり、これは真の系統樹のMAP推定になっている。二つ目のアプローチは、事後確率の和が一定の値(例えば95%)を超えるまで、事後確率が高い順に系統樹を収集していき、その系統樹群を統合したコンセンサス系統樹を構築することである。どちらのアプローチで得られた系統樹にも標本系統樹群の情報を使って枝ごとに事後確率や支持率を計算することができ、これはBI法の大きな利点になっている。
さらに、MCMCの効率を高めるためにMetropolis-coupled MCMC(MC3)もよく使われている。もし、τの事後確率分布に数多くの急峻な局所解が存在していた場合は、上記のMCMCでは局所解を脱することは困難である。そこで、MC3は複数のMCMCを並列で走らせることでこの問題を緩和する。ただし一つの系列はもともとの目標分布でMCMCを実行するが、それ以外の系列では目標分布を平坦化してからMCMCを行う。前者は局所解を脱しにくい一方で時間をかければ正しい事後確率分布に収束する(cold chain)。後者は局所解を脱しやすいものの正しい事後確率分布への収束は保証されない(hot chain)。そこで時折異なる系列間でパラメータを交換することで、局所解からの脱出を容易にしながら、より効率の良い収束を実現する。MC3の導入以外にもMCMCのアルゴリズム[68]や系統樹の探索方法[69]について改善が続けられており、それにともなってソフトウェアの性能も大幅に向上している。
3.5 系統樹の信頼性評価
得られた系統樹の統計的信頼性を評価するために標準的に使用されているのがBootstrap法[70]である。Bootstrap法では、まずMSAからカラムを無作為反復抽出することで新たなMSAを構築し、その新たなMSAに基づいて改めて系統樹推定を行う。その操作を繰り返し、最後に集計を行うことで、系統樹の各内部枝の再現率(Bootstrap値; BS値)を求める。Bootstrapの繰り返し基準については議論があったが、シミュレーションの結果、多くの場合は100~500回で十分とのことである[71]。Bootstrap法は時間がかかる工程であるため、これまでさまざまな工夫がなされてきた。例えばASTRAL[72]は単にMSAの無作為反復抽出を繰り返すのではなく、ブロック毎に計算を分割することで高度な並列計算を実現している。一方で、BI法ではBS値の代わりに事後確率を用いることが多い。事後確率はMCMCによる樹形空間からのサンプリングを要約した値と解釈することができるため、BS値と同様に枝の信頼性を評価するための基準として使用することができる。ただし、もしMCMCが適切に樹形空間を探索できていない場合は、ある樹形に偏ってサンプリングされることによる事後確率の過大評価が起こりうるため、その解釈には注意が必要である。他には、枝の長さが0以上であるかを検定する内部枝検定[15]や、二つの系統樹候補を比較するための下平-長谷川検定[73]がかつて広く使われていたが、現在ではML法、MP法、NJ法ではBootstrap法を、BI法では事後確率を使用することが主流となっている。信頼性評価法の歴史についてはSimonの総説を参照されたい[74]。
4.分子系統解析の実際
分子系統解析を実行する方法は大きく分けて四つある。一つ目はWebブラウザ上で行う方法である。例えば、phylogeny.fr[75]やiqtree.org[76]が代表的なWebサイトで、この中で系統樹推定の全工程を完結することができる。自分で解析環境を構築する必要がない点が最大の利点である。二つ目はGUI統合環境を用いる方法である。MEGA[77]が代表的なソフトウェアで、系統樹推定はもちろん、多様かつ高度な解析をこの中で行うことができる。作者のTamuraやKumarは分子系統学の第一人者であり、吟味された最先端の手法が数多く取り入れられている。一方で、軽量版のGUI統合環境としてはSeaView[78]が優れている。こちらもやはり分子系統学の第一人者Olivier Guscuelが作成したソフトウェアである。SeaViewは初心者でも手軽に系統解析ができるようにすることを目的に開発されたが、MSA、トリミング、系統樹推定、Bootstrap解析、可視化を同一のインターフェース内でシームレスに行うことが可能なため、熟練者にとっても非常に有用なツールである。三つ目はCUI統合環境で、IQ-TREE[79]やRAxML[80]が代表的なソフトウェアである。これらはもともと系統樹推定専用のソフトウェアであったが、今ではモデル選択や尤度計算、進化シミュレーションの実行など、さまざまな解析を同一のインターフェース内で実行することができる優れた統合環境となっている。四つ目は個別のソフトウェアを組み合わせて系統解析を行うことである。進化距離が著しく大きい、ドメインシャッフリングが起こっているなど、既存の手法では解決できない問題については、それぞれに特化したソフトウェアを使用するほかない。例えば進化距離の大きな問題はGraph Splitting法を実装したgs2[33]を、ドメインシャッフリングが起こっている問題は系統ネットワークを構築するSplitsTree[81]を使用することでそれぞれ対処することが可能になる。
4.1 配列データの収集
系統樹推定を行う前に配列を収集する作業が必要となる。遺伝子配列が蓄積されたデータベースは数多く存在するが、例えばOMA[82]、UniProt[83]、AnnoTree[84]、eggNOG[85]はよく整備された使いやすいデータベースである。相同性検索を行うソフトウェアとしては、これまでBLAST+[86]が広く使用されてきたが、扱う配列数の規模が著しく大きな場合はより高速なソフトウェアが必要になる。最近ではDIAMOND[87]やMMseqs2[88]が高速かつ高精度な相同性検索ツールとして高い評価を受けている。オーソログ解析を行うためのソフトウェアも数多く発表されている。最近では、SonicParanoid[89]、OrthoFinder[90]、OrthoMCL[91]、Broccoli[92]がよく使用されている。
4.2 MSA
MSAを構築するソフトウェアとして、現在最もよく使用されているのはMAFFT[42]、MUSCLE[41]、Clustal Ω[36]であり、いずれも非常に高速にMSAを構築する。他にも高速なソフトウェアとしてDIALIGN[93]などが広く使われているが、これまでに出版されたベンチマーキング論文を総合すると概ねMAFFTが速度と精度のバランスがとれた最も優れたソフトウェアとして評価されている[94]。一方で、計算コストとのトレードオフがあるものの、より精度の高いMSAを構築したい場合は、系統樹とMSAを同時に推定するBAli-Phy[95]やSATé-II[96, 97]、およびその後継版ソフトウェアで数十万配列規模のアライメントにも対応するPASTA[98]、立体構造に基づいてMSAを構築するT-Coffee[43]が主要な選択肢となる。精度に着目したベンチマーキング論文では、SATé-IIやBAli-Phyの精度が良いとする報告がそれぞれなされている[99, 100]。
4.3 トリミング
トリミングツールとしては、TrimAl[44]やGBLOCKS[101, 102]が広く使用されている。これらと同様にBlock-filteringを行うソフトウェアとしてはBMGE[103]やALISCORE [104]も挙げられる。近年はより高度なアルゴリズムを実装したソフトウェアが発表されており、HmmCleaner[45]、PREQUAL[105]、ZORRO[106]が高い評価を受けている。なお、上記のソフトウェアを使ってトリミングを行なった後は、必ずSeaViewなどを使ってトリミング後のMSAを可視化して確認することをお勧めする。もしこの段階で情報が著しく失われていた場合、満足できる系統樹推定を期待することは難しくなるため、ソフトウェアに与えるパラメータを調節する、あるいは収集した配列を見直すなどの対処が必要となる。
4.4 モデル選択
かつては、モデル選択はKakusanやAminosan[107]のような専用のソフトウェアを使用して行うことが多かったが、最近では、系統樹推定ソフトウェアそれぞれに組み込まれている独自のモデル選択モジュールが使用することが多い。例えばIQ-TREEにはModelFinder[108]が組み込まれている。ModelFinderには、進化速度の不均一性を考慮したモデル選択を行うPartitionFinder[109]のアルゴリズムもオプションとして実装されており、データの特性に合わせた適切なモデル選択を行うことができる。また、RAxMLにはModelTest-NG[110]が組み込まれており、こちらはjModelTest[111]やProtTest[112]の後継版である。他にPhyMLにはSMS[113]、BEASTには独自のBayesian model selection[114]が組み込まれており、いずれも系統樹推定をする際に、ソフトウェアにオプションを追加するだけでモデル選択も自動で行うことができるようになっている。
4.5 系統樹推定
NJ法、MP法、ML法、およびBI法は図9にまとめた指針に従い、データの性質や目的に合わせて使い分けるのが良いだろう。まず、進化距離が長いといった特別な対処の必要性、あるいは分岐年代を推定したいといった特殊な目的がなければ、IQ-TREE[79]とRAxML[80]が最も有力な選択肢となる。これらはどちらもML法によって系統樹を推定するソフトウェアである。前述した通り、モデル選択を自動で行うだけではなく、高速なBootstrap法であるUFBoot2[115]とRBS[116]をそれぞれ組み込んだ最先端のソフトウェアになっている。最近のベンチマーキング論文ではIQ-TREEの方が高精度である[117]と報告されているが、どちらも活発にソフトウェアの更新がなされており、事実上、現時点では両者の性能にはほとんど差がないと言えるだろう(なお、樹形探索アルゴリズムとしてRAxMLはSPRを、IQ-TREEはNNIを使用している、という違いがある)。
ML系統樹が構築できる他に有名なソフトウェアとしてはPhyML[118]、PHYLIP[119]、PAUP*[120]、PAML[121]が挙げられる。しかし、PAMLの作者であるYang自身が「PAMLは‟out-dated”である」と述べていたり、あるいはPHYLIPではBootstrap法の実装に重大なバグが最近報告される[122]などしているため、IQ-TREEやRAxMLの代わりにあえてこれらのソフトウェアを使用する理由はないように思われる。BI法を実行する代表的なソフトウェアとしては、MrBayes[123]とBEAST[124, 125]が挙げられる。特に化石情報などに基づいた分岐年代推定を行う場合はBEASTが定番のソフトウェアになっている[126]。NJ法は様々なソフトウェアやプログラミング環境で実行することができるが、特にRapidNJ[127]が高速な実装として良く使用されている。MP法を実行できるソフトウェアとしてはPAUP*が古くから定番のソフトウェアとして広く使われている。またRAxMLなど多くのソフトウェアでもMP系統樹を推定することができる。
大規模な系統樹を構築しなければいけない場合は、計算を簡略化することで著しく高速なML系統樹推定を実現したFastTree[128]やRapidNJが使用されることが多い。数億配列規模の系統樹は、さらに高速なアルゴリズムを実装したFRACTAL[129]を使用することで構築することができる。一方で、進化距離が大きな問題についてはGS法を実装したgs2[33]が有力な選択肢になる。
ここまでは遺伝子の系統樹を推定するソフトウェアを紹介してきたが、種の系統樹を推定するソフトウェアも列挙しておく。複数種類の遺伝子配列データから種系統樹を構築するための方法は、複数のMSAを結合してから系統樹を構築するSupermatrix法と、遺伝子ごとに系統樹を構築してから系統樹を集約するSupertree法の二つに大きく分けられる[130]。Supermatrix法にはIQ-TREEやRAxMLがそのまま使用されることが多い。一方、Supertree法でよく使われているのはWarnowらが開発しているASTRAL[131, 132]や、その改善版であるTreeMarge[133]である。他にはベイズ法による種系統樹の推定法[134]や、RAxMLの開発チームが開発しているGeneRax [135]も有力な選択肢である。GeneRaxは、開発者自身の性能比較によればASTRALといった他ソフトウェアよりも大幅に高精度とのことである。ただし、興味深いことに、精度検証の結果を見てみるとシミュレーションの試行によっては、Initial treeとして構築したNJ系統樹の方がML法で推定した系統樹よりも精度が高いケースが頻出していた。このことはInitial treeとして与えたはずのNJ系統樹でほぼ最適な系統樹に到達してしまっていることを意味しており、ML法とNJ法の関係(そしてML法を行う意味)を考え直すきっかけになるかもしれない。Supermatrix法とSupertree法以外の有力な方法としては、ゲノムのシンテニー構造に基づいて種の系統樹を推定する方法が挙げられる。特にPhyChro[136]は、脊椎動物や酵母のゲノムから正しい系統樹を非常に高速に推定できることが示されており、ゲノム情報に基づいて系統樹を推定する同様のソフトウェアの中では最も高精度かつ高速なソフトウェアとなっている。ユーザとしては、これまで紹介してきたソフトウェアの中から、得られるデータや解析条件に合わせて適切なソフトウェアを選ぶことが肝要である。
4.6 可視化
iTOL[137]は美しい系統樹を簡単に描画することができるWebアプリケーションである。ただし、iTOLは描画をするだけなら無料だが、構築した系統樹を保存するためには課金する必要がある。他にも、プログラミング言語ごとに優れた可視化ソフトウェアがある。Rではggtree[138]が定番ツールであり、より高度な解析と組み合わせる場合はphangorn[139]やape[140]も有力な選択肢になる。Pythonでは、iTOLと同じグループが開発したETE3[85]が、美しくinformativeな系統樹を簡単に構築できる優れたライブラリである。GUIツールとしてはSeaView[78]が非常に使いやすい。後述する通り、MSAの構築からトリミング、系統樹推定、系統樹の描画、アライメントの描画まで全て一つのGUI環境内で行うことができる優れたソフトウェアである。他に系統樹描画専用のGUIツールとしてはFigTree[141]、 TreeViewer[142]、Jalview[143]などがあり、いずれも使いやすさと図の美しさで高い評価を受けている。
4.7 統合環境
さまざまな系統解析を一つの環境で行うことができるGUIソフトウェアとして最もよく使われているのがMEGA[77]である。こちらは最新の手法を取り入れながら定期的にアップデートされているため信頼性が高く、業界の標準的な地位を占めている。他に同様のソフトウェアとしてDAMBE[144]があり、こちらは独自の距離法が組み込まれているなど、MEGAとの差別化が図られている。また前節で紹介したSeaViewは非常に軽量ながら、アライメントから系統樹推定まで一貫した同じインターフェースの中で実行することができるようになっており、こちらもオススメである。WebアプリケーションとしてはPhygeny.fr[75, 145]が特に充実している。他には、メタゲノムデータの統合解析環境であるPhyloPhlAn[146]、PhyloFlash[147]、QIIME[148]や、16S rRNA専用の分子系統解析ソフトウェアSINA[149]でも系統樹推定を行うことができる。CUIソフトウェアとしてはIQ-TREEとRAxMLがアップデートを繰り返す中、さまざまな機能を取り込み、もはや単なるML法による系統樹推定ソフトウェアの枠にとどまらず、総合環境に近いソフトウェアへと成長している。
Box 1: 系列で見るソフトウェア
かつてPAUPが最節約法の専用ソフトウェアから、最尤法もとりこんだ総合系統解析ソフトウェアPAUP*へ発展したように、現在のSort-of-the-ArtなソフトウェアであるIQ-TREEとRAxMLも、単に最尤法に基づいた系統樹推定を行うだけではなく、独自のモデル選択手法や高速なBootstrap法を開発し、同じソフトウェア内でシームレスに実行できるよう発展し続けている。またOlivier GascuelとTandy Warnowは、革新的なアルゴリズムの開発と高品質な実装を両輪として進めているため、彼らが開発したソフトウェアを系列で把握しておくと便利である。そこで、読者がソフトウェアを選択する際に参考になるよう関連するソフトウェアを一覧にまとめた。なお、巨人たちには足元にも及ばないので大変恐縮だが、筆者が開発した手法・ソフトウェアも並べさせていただいた。参考になれば幸いである。
表2:系統解析ソフトウェア一覧 |
解析ステップ |
IQ-TREE |
RAxML |
Olivier Gascuel系列 |
Tandy Warnow系列 |
Motomu Matsui系列 |
ベイズ関連 |
多重配列アライメント |
- |
- |
Muscle |
PASTA |
- |
BAli-Phy |
モデル選択 |
ModelFinder QMaker |
ModelTest |
SMS(LG model) |
- |
- |
BIC(CAT model) |
系統樹推定 |
IQ-TREE |
RAxML |
PhyML(BioNJ) |
ASTRAL TreeMerge |
Graph Splitting |
MrBayes BEAST |
内部枝評価 |
UFBoot2 |
RBS |
TBE |
- |
Edge Perturbation |
(事後確率) |
GUI |
- |
raxmlGUI |
SeaView |
- |
- |
- |
Webサービス |
iqtree.org |
raxml-ng.vital-it.ch |
phylogeny.fr |
- |
gs.bs.s.u-tokyo.ac.jp |
- |
その他 |
- |
GeneRax RootDigger |
GBlocks |
TIPP |
PANJEP |
(FigTree) |
5.分子系統解析をめぐる課題と論争、新たなアプローチ
4章で解説した通り、2000年代には「標準手法」が確立し、使用されるソフトウェアの収斂も進んだ。しかし、2010年台の後半になって、これまで「標準手法」が見逃してきた様々な問題が指摘されるようになり、標準手法の再構築が始まりつつある(図3)。一つ目の問題は2.2節でも指摘した「正解を直接観察できないこと」ことである。これまでに系統樹推定手法の性能を比較したベンチマーキング論文が数多く出版されてきたが、それぞれ前提とする条件が大きく異なっている。すなわち、正解が見えないことはベンチマーキングの妥当性の担保を困難にし、結果として手法の選択を難しくしているのである。二つ目の問題は「ダーウィンの不確定性原理」である[150]。2020年、Gascuelらは進化モデル推定の精度と系統樹推定の精度にはトレードオフがあることを数学とシミュレーションによって証明し、ハイゼンベルグの不確定性原理に擬えて「ダーウィンの不確定性原理」と名付けた。この原理は進化モデルと系統樹を同時に求めようとすると必ず本質的な精度の限界があることを意味しており、進化モデルを前提に系統樹推定を行うという「標準手法」に根本的な見直しを迫るものである。三つ目はNGSをめぐる問題である。例えば大量に収取されたSARS-CoV2サンプルについてマーカー遺伝子に基づいた系統樹推定を行おうとすると、配列長と変異数に比べ圧倒的に配列数の多い問題を解かなければならなくなる。このようなケースでは樹形空間は局所解だらけになり、尤度関数に基づく分子系統解析は難しくなる[31]。またNGSデータに基づく巨大系統樹の推定が可能になったことで、β-proteobacteriaの再分類[151]やBacteriaとArchaeaの進化的な距離の見直し[2]など、NGS解析が進化学の重要な議論をリードする状況が生まれている。しかし、そういった巨大系統樹の信頼性は十分担保されておらず、系統樹を更新するだけで結論が大きく変わってしまうような事態も起きている[10]。
5.1 MSA
MSAは系統樹推定の出発点であるため、MSAの精度が分子系統解析の精度を左右する[12]。特に初期進化や高速進化など、大きな進化距離を含む配列群のMSAを構築することの難しさは以前から指摘されており[152]、実際にタンパク質スーパーファミリー規模の系統樹推定は難しいことが示されている[153]。このような問題に対処するため、MSAの構築時に使用する各パラメータをシミュレーションで決定することでMSAの精度を向上する試み[154]や、MSAの構築をスキップして、K-mer頻度で距離行列を構築し、距離法によって系統樹を構築しようとする試み[155]がなされてきたが、著しい精度向上には結びついていないようである。その解決のためには5.3節で後述するように、MSAの代わりにペアワイズアライメントに基づくGraph Splitting法[33]が有効なアプローチとなる。
5.2 トリミング
標準手法に不可欠な工程とされてきたトリミングについても疑義が呈されている。Tanらは、一般にMSAのトリミングは系統樹推定の精度をむしろ下げてしまうことを大規模なシミュレーションによって示した[13]。ノイズ除去の効果よりも情報量が減少する事による悪影響の方が大きいことが原因であり、彼らはトリミングの過程をスキップすることを提案している。この提案については最近のPortikらによる検証によっても支持されている[12]。ただし、彼らの提案はあくまで大規模シミュレーションによる大量の事例の平均値に基づく議論によるものであることに注意が必要である。すなわち、個別の事例に絞って考えた場合(例えば、シーケンスエラーによってMSAが乱されている領域があった場合、あるいはドメインシャッフリングなどによってMSAの中に明らかに矛盾した領域が含まれている場合)、その領域をトリミングすることでより内部枝が支持された信頼性のある系統樹を得ることは依然として期待できる。
このように、MSAにおける問題のある領域について、標準手法に従ってトリミングしてしまう方法と、Tanらの提案のようにトリミングしない方法を比較してきたが、第三の道として、問題のある領域を他の領域と区別しつつ、系統樹推定のために生かすアプローチも提案されている。ここでは二つのソフトウェアを紹介する。一つ目はAliらによるDivvier[156]である。Divvierは、カラムごとに確率モデルに従って相同な塩基(やアミノ酸)のクラスターを構築し、その情報に従って非相同な塩基を除去、あるいはカラムを複数に分割する。二つ目はLöytynojaらによるPRANK[157]である。PRANKはMSAを乱す一因であった「挿入と欠失(Indel)」を進化モデルに組み込むことで、Gapの多いMSAから得られる情報量を増やす。どちらの方法も、標準手法のトリミングに比べて、情報の損失を抑えながらMSAの質を向上させることができる有力なアプローチである。
5.3 モデル選択
Abadiらはデータごとに異なる進化モデルを選択するのではなく、常にもっとも複雑な進化モデルであるGTR+Γに基づいて系統樹推定を行った方が、平均的には精度の良い系統樹が得られることを示した[11]。逆に、Taoらはもっともシンプルな進化モデルであるJC69を用いても、枝ごとの進化速度の変化を許容したり、化石情報などに基づく事前情報を導入したりすることで最も複雑な進化モデルと遜色のない系統樹推定が可能になることを示している[158]。彼らの主張は一見相反しているように見えるが、実はどちらも「モデル選択が必須の過程ではないこと」を強く示唆している点で一致している。また、Spielmanらは一般的に用いられている尤度を利用したモデル選択は最終的に得られる系統樹の確からしさを保証するものではなく、異なる進化モデルを使用しても樹形に大きな影響を与えないことを示した[159]。そもそも実際の進化過程は非常に複雑であり、現在一般に用いられている全ての進化モデルは過度に単純化しすぎた(すなわち、いずれも同様に誤った)進化モデルであると考えることができる。したがって、そもそも過度に単純化し過ぎた進化モデル同士をAIC等で比較してパラメータと尤度のバランスを取ることが妥当かどうか、から改めて議論する必要があるかもしれない。このやりとりを踏まえ、Abadiらは翌年には機械学習に基づく新たなモデル選択手法ModelTellerを発表しているが[160]、一方でMinhらは与えられた配列に合わせて、都度進化モデルを構築するQMaker[161]を提案している。筆者としては後者の方がリーズナブルな提案に思える。例えば、Trivediらは従来の進化モデルが保存領域の情報のみにもとづいて構築されていることについて問題提起をしている。天然変性タンパク質や非保存領域の相同性検索に従来の保存領域に基づく進化モデルを使用すると感度が大幅に下がってしまうため、Trivediらは非保存領域の情報を元にEDSSMatを構築した[162]。そして、実際にEDSSMatを用いることで非保存領域の検出感度が従来の進化モデルを使用した方法よりも著しく向上することを示している。間接的ではあるが、この報告もMinhらの提案を支持するものと考えられる。
5.4 系統樹推定
分子系統学の歴史の中で様々な系統樹推定手法が提案されてきたが、標準手法としてはNJ法、ML法、MP法、BI法に収斂してきた。しかし標準手法で解けない問題について、新たなアプローチで解決しようとする試みがなされている。
筆者らが開発したGraph Splitting法(GS法)はその一つである[33]。GS法はタンパク質スーパーファミリーの進化や、ウイルスの高速な進化といった長大な進化距離を含む問題を解くために開発された手法である。このような問題は標準手法で解く事は困難であった。その理由の一つは、遺伝子群が経た進化時間が長ければ長いほど、そのMSAの精度が著しく低下してしまうことにある(図7)。GS法はMSAではなくペアワイズアライメントに基づいて系統樹を推定することでこの問題を回避する(図8)。また、GS法はMSAを使わないため、MSAに基づくBootstrap法を適用することができない。そこで筆者らは系統樹の内部枝を評価する方法Edge Perturbation method(EP法)も合わせて開発した。進化シミュレーションと実際のタンパク質配列の両方を使った性能検証の結果、特に互いに進化的に遠く離れている遺伝子群について、GS法は標準手法よりも良い精度で系統樹を推定できることなどが示されている。また、実際の正解率とEP値が強い相関を持つことも示された。なお、EP法は一般的な距離法と組み合わせることもでき、例えば簡便な進化距離の計算法であるScoreDist[163]とNJ法、EP法を組み合わせることで、MSAを使わずに内部枝支持率付きのNJ系統樹を推定することができる。Bootstrap法に関連して、特に大規模な系統樹に対して誤った樹形に強いサポートを与えてしまうという問題も知られている[164]。Bootstrap法の補正方法としてTransfer bootstrap expectation(TBE)法[165]と、その高速な計算法[166]が提案されているが、一般にこの問題を解決できるかは明らかになっていない。
他に新たなアプローチとして注目されているのが、Deep Learningに基づく系統樹推定である[167, 168]。現段階では五つ以上の配列の系統関係を解くことができないため実用性に乏しいが、近い将来、タンパク質立体構造予測ソフトウェアAlphaFold2 [169]のような、圧倒的な性能を持つ系統樹推定ソフトウェアが発表されてもおかしくないだろう。
5.5 可視化
大規模系統樹を可視化する技術の開発は今後ますます重要な課題になるだろう。ここで問題になるのは描画速度と可読性である。前者に関しては、祖先状態を高速に推定し、同時に巨大系統樹の要約を構築するPastML[170]が有力なアプローチである。後者に関しては系統樹のフラクタル性を利用して系統樹の情報を集約するOneZoom[171]や双曲平面を利用した大規模な系統樹の写像アルゴリズム[172]などが提案されてきた。また、より本質的な問題として、そもそも進化過程を木構造で描画することが困難なケースが存在する。例えば水平伝播やドメインシャフリングが生じた場合は、その進化過程は木構造ではなくネットワーク構造になる。系統ネットワークはそのような進化過程を可視化する方法であり、以前からMedian-joining network[173, 174]やSplitsTree[81]、ベイズ推定法[175]が提案されてきた。また、筆者らが考案したGS法は配列類似性ネットワークと系統樹を結びつける方法であり、それぞれを見比べながら遺伝子配列間の類似性の情報を損失することなく考察することを可能にする[33]。一方で、Iwasakiらは木構造をネットワーク構造に拡張するのではなく、多分岐系統樹の節に情報を付与する方法として車輪樹法を提案している[176]。これは多分岐の枝の隣接関係を、枝が隣り合う順番に意味を持たせることで表現する方法である。
6.より良い分子系統解析に向けて
6.1 分子系統解析の最前線
より良い系統樹推定を行う上で注意すべき点は三つある(図9)。一つ目は、前述した通り、系統樹推定を行う前にMSAを必ず確認することである。MSAの中に相同でない領域が大量に含まれている、あるいは配列が短かったりギャップが多かったりしてMSAから取得できる情報が著しく少ない場合は、トリミングや配列収集方法を見直す必要がある。二つ目はデータに合わせて適切な手法を選択することである。図9は問題に合わせた系統樹推定手法の選択手順を示している。また同様に、MSAの構築方法やモデル選択、内部枝の評価法も、数多くの選択肢から問題に合わせて選ばなくてはならない。三つ目はBootstrap値を注視することである。2.2節などで述べた通り、系統樹推定で完全に正しい系統樹を得ることは本質的に困難なため、推定した系統樹には一定の誤りが含まれていると捉えるべきである。Bootstrap値を参照しながら、注目した枝は議論に値するか否か、あるいは系統樹から導かれる結論の確からしさを見積もることは、この問題に対する現時点での最善の対処法だと考えられる。例えば棒グラフのエラーバーのように、Bootstrap値は系統樹にとって必要不可欠だと考えるべきだろう。
他の提案として、Kochらは、化石情報を使える場合は積極的に使うことを推奨している[177]。化石情報に基づく適切な分岐年代のキャリブレーションは、系統樹推定手法の選択よりも、系統樹の精度向上に強く寄与していることが示されている。ただし、化石の形態情報に基づいて系統解析することには注意が必要で、そのような多次元のデータは系統樹推定に向かないことが最近示されている[178]。したがって、塩基配列やアミノ酸配列が利用できる場合は、化石情報はあくまでも分岐年代推定の為の事前情報として用いるのが良いだろう。
6.2 分子系統解析の新地平
これまで述べてきた通り、分子系統解析には未解決の問題が数多く残されている。例えば、(1)系統樹をどのように可視化し理解するか、(2)遠距離進化や大規模系統樹に代表される困難な問題をどのように解くか、(3)タンパク質立体構造の情報をどのように利用するか、(4)別分野の新たな理論をいかに導入するか、などが挙げられる。
(1)の問題に対しては、ネットワークと系統樹を組み合わせることが一つの有力な手がかりになるだろう[179, 180]。有効なネットワーク解析の例として、普遍的な共通遺伝子(e.g. 16S rRNA)を持たないウイルスの分子系統解析に活用された例が挙げられる。例えば、Rohwerらは、ウイルスの遺伝子共有プロファイルに基づいて距離行列を構築し、さらに最節約法を適用することで系統樹を推定した[181]。ここで構築された距離行列は実際には数多くのミッシングリンクを含むネットワークとして捉えることができるため、ネットワークの可視化と系統樹推定を結びつけた研究のさきがけであると評価することができる。このような遺伝子共有ネットワークに基づいて、Jangらはウイルスの分類ツールvConTACTを開発している[182]。また、GS法はネットワークに基づいて系統樹を推定する、という解析過程を通して、ネットワーク思考と系統樹思考をシームレスに結合する方法であるため、複雑な進化過程の可視化という問題についても有力なアプローチになるかもしれない。(2)遠距離進化の問題に対してはGS法が一つの解法を提示している。しかし、ドメインシャッフリングや水平伝播といった複雑な進化過程を解くことはいまだに困難であり、革新的なアイディアに基づいた新たなアルゴリズムの提案が待たれる。(3)Alphafold2[169]の出現という‟事件”に直面した我々は、良い意味で立体構造解析を分子系統学に導入する必要に迫られていると言っても良いだろう。Malikらは立体構造の揺らぎを利用することでBootstrap値と同様の信頼値付き系統樹を構築する手法を提案しているが[183]、de novoでの立体構造比較が容易になったことをきっかけに、立体構造に基づく系統樹推定が当たり前に行われるようになるかもしれない。例えば、進化距離が遠すぎて塩基配列やアミノ酸配列のアライメントができない場合でも、立体構造の類似性に基づいて距離行列を構築することはできる。2.1節で議論した相同性の問題や立体構造の進化モデルをどのように構築するべきかという問題を解決する必要はあるものの、立体構造の類似性に基づいた距離行列からNJ法やGS法によって系統樹を推定し、さらにMalikらの方法で枝の信頼度を計算する、といったアプローチは有力な系統樹推定法になるのではないかと思われる。また、Alphafold2に代表される機械学習のアプローチが構造解析学に激震を与えたように、近い将来、機械学習に基づく系統解析手法の精度が既存手法を圧倒するかもしれず、その時は、学習器から生物学的な知見を取り出すことが有益なアプローチになるだろう。(4)ネットワーク科学の導入が分子系統学に利益をもたらしたように、他分野の理論や技術の導入が分子系統学にさらなるブレイクスルーを引き起こすのではないかと期待される。例えばMatsumotoらが提案するように、双曲幾何学の概念に基づいて分子系統学にまつわる様々な方法を再検討することは非常に有望なアイディアであると考えられる[184]。例えば、ML法やBI法などにおける樹形探索の効率化、樹形距離(e.g. Robinson-Foulds距離[185])の改善、効率的な種系統樹の構築等が可能になるかもしれない。一方で、Morlonらは系統樹の構造をスペクトルグラフ理論の枠組みで捉えることで、系統樹の形状を分析する手法を開発している[186]。この方法は、たとえばインスフエンザウイルスとエボラウイルスの進化パターンの違いを系統樹の形状の違いとして検出することを可能にしており、系統樹の解釈の幅を広げる有力な方法になると期待される。
以上、未解決問題と新たな試みの例を列挙したが、いずれもさらなる革新的なアイディアと優れた実装の積み重ねが不可欠であり、解決までの道のりは遥か遠いように思われる。しかし、これらの問題がもし解決できたならば、その波及効果は分子系統学や生物情報学の範疇にとどまらず、生物学の新たな分野を拓くブレイクスルーとなるだろう。本総説が新たな研究者の興味を惹き、分子系統学のさらなる発展の一助となることを願い、結びにかえたい。
Box 2: オススメの本
分子系統解析の概念、歴史、アルゴリズムについては、数多くの優れたテキストがすでに出版されている。本総説で解説した内容に興味を持たれた方は、ぜひ以下に紹介する書籍を紐解かれたい。 1.進化で読み解くバイオインフォマティクス入門[1] 2019、長田直樹著。進化という概念を軸にバイオインフォマティクスの全分野を俯瞰し、初学者にも分かりやすく解説した優れた入門書である。アライメントと系統樹再構築の説明は的確かつ簡潔にまとまっており、より専門的な教科書や原著論文を読む前に本書を読了しておくとより効率良く学習が進むだろう。 2.Molecular Evolution: a statistical approach[187] 2014年、Ziheng Yang著。Yangは最尤法やベイズ法の開発に初期から携わってきたトップランナーの一人。本書は分子系統学の理論を学ぶのに現時点で手に入る中でベストな教科書である。なお、前著にあたる「Computational Molecular Evolution, Zhieng Yang, 2006」の日本語版が「分子系統学への統計的アプローチ」として出版されている。2006年度版と2014年度版を比較すると、基礎部分の記述はほとんど変わっていないので、まず日本語版で勉強するのでも問題ないだろう。 3.Molecular Evolution and Phylogenetics[4] 2000年、根井正利 and Sudhir Kumar著。根井とKumarは両名ともに分子系統学の巨人。本書には(特に最尤法とベイズ法に関して)古い内容も含まれるが、特に進化モデルや距離法の解説は簡潔かつ美しく分かりやすい。また各系統解析手法の使用指針や理論的正当性についての議論は今なお古びない。日本語版も著者監修のもと「分子進化と分子系統学」として出版されている。 4.Computational Phylogenetics: An Introduction to Designing Methods for Phylogeny[188] 2017年、Tandy Warnow著。Warnowは種の系統樹推定の第一人者。特に種の系統樹推定や、PASTAやBali-Phyといった最先端のアライメントアルゴリズムの解説は類書中で最も充実している。 5.Bioinformatics: A practical guide to the analysis of genes and proteins[189] 2020年、Andreas D Baxevanisら編集。アライメントと分子系統解析にまつわる各種法のアルゴリズムが詳しく解説されている。ただし、特に系統樹再構築手法の説明は、2020年出版の割に古いので、最新の知見については他の教科書などで補いたい。 6.Bioinformatics and Functional Genomics[190] 2015年、Jonathan Pevsner著。上記の本と同様に、アライメントと分子系統解析のアルゴリズムが詳しく解説されている。こちらはFunctional genomicsと進化学の関係を体系的に学べる点で優れている。 7.Phylogenetic Trees Made Easy: A How-To Manual [191] 2018年、Barry G Hall著。主にMEGAを使った分子系統解析を指南する実践書。ハウツー本の体裁を取っているが、必要な理論もしっかりと解説されており、実際に手を動かしながら分子系統解析の全体像を見通しよく習得することができる。 8.生物系統学[51] 1997年、三中信宏著。分子系統学の歴史と哲学的背景を学ぶならこちらがオススメ。 9.Reconstructing the past [192] 1989年、Elliott Sober著。最節約法の理論と歴史、他手法との関係を学ぶのに最適な本。日本語版は「過去を復元する」のタイトルで出版されている。 10.Evidence and Evolution: The Logic Behind the Science [193] 2008年、Elliott Sober著。最尤法とベイズ法の理論と歴史を学ぶならこちら。 11.系統樹曼荼羅―チェイン・ツリー・ネットワーク [194] 2012年、三中信宏著。系統樹沼にハマりたい方へ。本書には貴重な資料から採られた美麗な図版が詰まっており、美術書としても優れている。 |
謝辞
東京大学 岩崎渉教授、及び岩崎研究室のメンバーには、多忙の中原稿をチェックしていただき、大変有益なアドバイスを頂いた。また、筆者は文部科学省科学研究費補助金 新学術領域研究「超地球生命体を解き明かすポストコッホ機能生態学」による助成を受けている。この場を借りて深く感謝申し上げる。
References
- [1] Osada N. 進化で読み解くバイオインフォマティクス入門: Morikawa Publishing Co., LTD; 2019.
- [2] Zhu Q, Mai U, Pfeiffer W, Janssen S, Asnicar F, Sanders JG, et al. Phylogenomics of 10,575 genomes reveals evolutionary proximity between domains Bacteria and Archaea. Nature Communications. 2019;10(1):5477. Epub 20191202. doi: 10.1038/s41467-019-13443-4.
- [3] Danko D, Bezdan D, Afshin EE, Ahsanuddin S, Bhattacharya C, Butler DJ, et al. A global metagenomic map of urban microbiomes and antimicrobial resistance. Cell. 2021;184(13):3376-93.e17. Epub 20210526. doi: 10.1016/j.cell.2021.05.002.
- [4] Nei M, Kumar S. Molecular Evolution and Phylogenetics: Oxford University Press; 2000.
- [5] Baldauf SL. Phylogeny for the faint of heart: a tutorial. 2003;19(6):345-51. doi: 10.1016/S0168-9525(03)00112-4.
- [6] Hedges SB, Marin J, Suleski M, Paymer M, Kumar S. Tree of life reveals clock-like speciation and diversification. Molecular Biology and Evolution. 2015;32(4):835-45. Epub 20150303. doi: 10.1093/molbev/msv037.
- [7] Hu D, Liu B, Wang L, Reeves PR. Living Trees: High-Quality Reproducible and Reusable Construction of Bacterial Phylogenetic Trees. Molecular Biology and Evolution. 2020;37(2):563-75. doi: 10.1093/molbev/msz241.
- [8] Kapli P, Yang Z, Telford MJ. Phylogenetic tree building in the genomic age. Nature Reviews Genetics. 2020;21(7):428-44. Epub 2020/05/18. doi: 10.1038/s41576-020-0233-0.
- [9] Hug LA, Baker BJ, Anantharaman K, Brown CT, Probst AJ, Castelle CJ, et al. A new view of the tree of life. Nature Microbiology. 2016;1:16048. Epub 20160411. doi: 10.1038/nmicrobiol.2016.48.
- [10] Petitjean C, Deschamps P, López-García P, Moreira D. Rooting the domain archaea by phylogenomic analysis supports the foundation of the new kingdom Proteoarchaeota. Genome Biology and Evolution. 2014;7(1):191-204. Epub 20141219. doi: 10.1093/gbe/evu274.
- [11] Abadi S, Azouri D, Pupko T, Mayrose I. Model selection may not be a mandatory step for phylogeny reconstruction. Nature Communications. 2019;10(1):934. Epub 20190225. doi: 10.1038/s41467-019-08822-w.
- [12] Portik D, Wiens J. Do Alignment and Trimming Methods Matter for Phylogenomic (UCE) Analyses? Systematic Biology. 2021;70(3):440-62. doi: 10.1093/sysbio/syaa064.
- [13] Tan G, Muffato M, Ledergerber C, Herrero J, Goldman N, Gil M, et al. Current Methods for Automated Filtering of Multiple Sequence Alignments Frequently Worsen Single-Gene Phylogenetic Inference. Systematic Biology. 2015;64(5):778-91. doi: 10.1093/sysbio/syv033.
- [14] Jukes TH, Canter CR. Evolution of Protein Molecules. In: Munro HN, editor. Mammalian Protein Metabolism: Academic Press; 1969. p. 21-132.
- [15] Felsenstein J. Evolutionary trees from DNA sequences: a maximum likelihood approach. Journal of Molecular Evolution. 1981;17(6):368-76.
- [16] Kimura M. A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences. Journal of Molecular Evolution. 1980;16(2):111-20. doi: 10.1007/BF01731581.
- [17] Hasegawa M, Kishino H, Yano T. Dating of the human-ape splitting by a molecular clock of mitochondrial DNA. Journal of Molecular Evolution. 1985;22(2):160-74. doi: 10.1007/BF02101694.
- [18] Tavaré S. Some Probabilistic and Statistical Problems in the Analysis of DNA Sequences. Lectures on Mathematics in the Life Sciences. 1986;17:57-86.
- [19] Trivedi R, Nagarajaram HA. Substitution scoring matrices for proteins - An overview. Protein Science. 2020;29(11):2150-63. Epub 20201012. doi: 10.1002/pro.3954.
- [20] Dayhoff MO, Schwartz RM, Orcutt BC. A model of evolutionary change in proteins. In: Dayhoff MO, editor. Atlas of Protein Sequence and Structure. 51978. p. 345- 52.
- [21] Jones DT, Taylor WR, Thornton JM. The rapid generation of mutation data matrices from protein sequences. Computer Applications in the Biosciences. 1992;8(3):275-82. doi: 10.1093/bioinformatics/8.3.275.
- [22] Whelan S, Goldman N. A general empirical model of protein evolution derived from multiple protein families using a maximum-likelihood approach. Molecular Biology and Evolution. 2001;18(5):691-9.
- [23] Le SQ, Gascuel O. An improved general amino acid replacement matrix. Molecular Biology and Evolution. 2008;25(7):1307-20. Epub 20080326. doi: 10.1093/molbev/msn067.
- [24] Dang CC, Le QS, Gascuel O, Le VS. FLU, an amino acid substitution model for influenza proteins. BMC Evolutionary Biology. 2010;10:99. Epub 20100412. doi: 10.1186/1471-2148-10-99.
- [25] Nickle DC, Heath L, Jensen MA, Gilbert PB, Mullins JI, Kosakovsky Pond SL. HIV-specific probabilistic models of protein evolution. PLoS One. 2007;2(6):e503. Epub 20070606. doi: 10.1371/journal.pone.0000503.
- [26] Adachi J, Hasegawa M. Model of amino acid substitution in proteins encoded by mitochondrial DNA. Journal of Molecular Evolution. 1996;42(4):459-68. doi: 10.1007/BF02498640.
- [27] Good BH, McDonald MJ, Barrick JE, Lenski RE, Desai MM. The dynamics of molecular evolution over 60,000 generations. Nature. 2017;551(7678):45-50. Epub 20171018. doi: 10.1038/nature24287.
- [28] Petrova V, Russell C. The evolution of seasonal influenza viruses. Nature Reviews Microbiology. 2018;16(1):47-+. doi: 10.1038/nrmicro.2017.118.
- [29] Rochman ND, Wolf YI, Faure G, Mutz P, Zhang F, Koonin EV. Ongoing global and regional adaptive evolution of SARS-CoV-2. Proceedings of the National Academy of Sciences of the United States of America. 2021;118(29). Epub 20210702. doi: 10.1073/pnas.2104241118.
- [30] Cavalli-Sforza LL, Edwards AW. Phylogenetic analysis. Models and estimation procedures. The American Journal of Human Genetics. 1967;19(3 Pt 1):233-57.
- [31] Morel B, Barbera P, Czech L, Bettisworth B, Hubner L, Lutteropp S, et al. Phylogenetic Analysis of SARS-CoV-2 Data Is Difficult. Molecular Biology and Evolution. 2021;38(5):1777-91. doi: 10.1093/molbev/msaa314.
- [32] Susko E, Roger AJ. Long Branch Attraction Biases in Phylogenetics. Systematic Biology. 2021;70(4):838-43. doi: 10.1093/sysbio/syab001.
- [33] Matsui M, Iwasaki W. Graph Splitting: A Graph-Based Approach for Superfamily-Scale Phylogenetic Tree Reconstruction. Systematic Biology. 2020;69(2):265-79. doi: 10.1093/sysbio/syz049.
- [34] Zhan Q, Ye Y, Lam TW, Yiu SM, Wang Y, Ting HF. Improving multiple sequence alignment by using better guide trees. BMC Bioinformatics. 2015;16 Suppl 5:S4. Epub 20150318. doi: 10.1186/1471-2105-16-S5-S4.
- [35] Needleman SB, Wunsch CD. A general method applicable to the search for similarities in the amino acid sequence of two proteins. Journal of Molecular Biology. 1970;48(3):443-53. doi: 10.1016/0022-2836(70)90057-4.
- [36] Sievers F, Wilm A, Dineen D, Gibson TJ, Karplus K, Li W, et al. Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega. Molecular Systems Biology. 2011;7:539. doi: 10.1038/msb.2011.75.
- [37] Fitch WM, Yasunobu KT. Phylogenies from amino acid sequences aligned with gaps: the problem of gap weighting. Journal of Molecular Evolution. 1975;5(1):1-24. doi: 10.1007/BF01732010.
- [38] Hogeweg P, Hesper B. The alignment of sets of sequences and the construction of phyletic trees: an integrated method. Journal of Molecular Evolution. 1984;20(2):175-86. doi: 10.1007/BF02257378.
- [39] Feng DF, Doolittle RF. Progressive sequence alignment as a prerequisite to correct phylogenetic trees. Journal of Molecular Evolution. 1987;25(4):351-60. doi: 10.1007/BF02603120.
- [40] Garriga E, Di Tommaso P, Magis C, Erb I, Mansouri L, Baltzis A, et al. Large multiple sequence alignments with a root-to-leaf regressive method. Nature Biotechnology. 2019;37(12):1466-+. doi: 10.1038/s41587-019-0333-6.
- [41] Edgar RC. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research. 2004;32(5):1792-7. Epub 20040319. doi: 10.1093/nar/gkh340.
- [42] Katoh K, Standley DM. MAFFT multiple sequence alignment software version 7: improvements in performance and usability. Molecular Biology and Evolution. 2013;30(4):772-80. doi: 10.1093/molbev/mst010.
- [43] Notredame C, Higgins DG, Heringa J. T-Coffee: A novel method for fast and accurate multiple sequence alignment. Journal of Molecular Biology. 2000;302(1):205-17. doi: 10.1006/jmbi.2000.4042.
- [44] Capella-Gutiérrez S, Silla-Martínez JM, Gabaldón T. trimAl: a tool for automated alignment trimming in large-scale phylogenetic analyses. Bioinformatics. 2009;25(15):1972-3. Epub 20090608. doi: 10.1093/bioinformatics/btp348.
- [45] Di Franco A, Poujol R, Baurain D, Philippe H. Evaluating the usefulness of alignment filtering methods to reduce the impact of errors on evolutionary inferences. BMC Evolutionary Biology. 2019;19(1):21. Epub 20190111. doi: 10.1186/s12862-019-1350-2.
- [46] Kishino H, Hasegawa M. Converting distance to time - application to human-evolution. Methods in Enzymology. 1990;183:550-70.
- [47] Posada D, Buckley T. Model selection and model averaging in phylogenetics: Advantages of akaike information criterion and Bayesian approaches over likelihood ratio tests. Systematic Biology. 2004;53(5):793-808. doi: 10.1080/10635150490522304.
- [48] Akaike H. A New look at the statistical model identification. IEEE Transactions on Automatic Control. 1974;19(6):716-23. doi: 10.1109/TAC.1974.1100705.
- [49] Sugiura N. Further analysis of data by Akaike’s information criterion and finite corrections. Communications in Statistics Part a-Theory and Methods. 1978;7(1):13-26. doi: 10.1080/03610927808827599.
- [50] Schwarz G. Estimating dimension of a model. Annals of Statistics. 1978;6(2):461-4. doi: 10.1214/aos/1176344136.
- [51] Minaka N. 生物系統学: 東京大学出版会; 1997.
- [52] Yang Z, Rannala B. Molecular phylogenetics: principles and practice. Nature Reviews Genetics. 2012;13(5):303-14. Epub 20120328. doi: 10.1038/nrg3186.
- [53] Saitou N, Nei M. The Neighbor-Joining Method: a New Method for Reconstructing Phylogenetic Trees. Molecular Biology and Evolution. 1987;4(4):406-25.
- [54] Sokal RRM, Charles D. A statistical method for evaluating systematic relationships. University of Kansas science bulletin. 1958;38(22):1409-48.
- [55] Sneath PHA, Sokal RR. Numerical Taxonomy: The Principles and Practice of Numerical Classification: W H Freeman & Co; 1973.
- [56] Studier JA, Keppler KJ. A note on the neighbor-joining algorithm of Saitou and Nei. Molecular Biology and Evolution. 1988;5(6):729-31.
- [57] Camin JH, Sokal RR. A method for deducing branching sequences in phylogeny. Evolution. 1965;19(3):311-26. doi: 10.2307/2406441.
- [58] Hennig W. Phylogenetic Systematics: University of Illinois Press; 1966.
- [59] Eck RV, Dayhoff MO. Evolution of the structure of ferredoxin based on living relics of primitive amino Acid sequences. Science. 1966;152(3720):363-6. doi: 10.1126/science.152.3720.363.
- [60] Fitch WM. Toward Defining the Course of Evolution: Minimum Change for a Specific Tree Topology. Systematic Zoology. 1971;20(4):406-16. doi: 10.2307/2412116.
- [61] Hartigan JA. Minimum Mutation Fits to a Given Tree. Biometrics. 1973;29(1):53-65. doi: Doi 10.2307/2529676.
- [62] Kishino H, Miyata T, Hasegawa M. Maximum likelihood inference of protein phylogeny and the origin of chloroplasts. Journal of Molecular Evolution. 1990;31:151-60. doi: 10.1007/BF02109483.
- [63] Yang Z, Rannala B. Bayesian phylogenetic inference using DNA sequences: A Markov Chain Monte Carlo method. Molecular Biology and Evolution. 1997;14(7):717-24.
- [64] Rannala B, Yang Z. Probability distribution of molecular evolutionary trees: a new method of phylogenetic inference. Journal of Molecular Evolution. 1996;43(3):304-11.
- [65] Mau B, Newton MA. Phylogenetic Inference for Binary Data on Dendograms Using Markov Chain Monte Carlo. Journal of Computational and Graphical Statistics. 1997;6(1):122-31. doi: 10.1080/10618600.1997.10474731.
- [66] Li S, Pearl DK, Doss H. Phylogenetic Tree Construction Using Markov Chain Monte Carlo. Journal of the American Statistical Association. 2000;95(450):493-508. doi: 10.1080/01621459.2000.10474227.
- [67] Huelsenbeck JP, Ronquist F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 2001;17(8):754-5. doi: 10.1093/bioinformatics/17.8.754.
- [68] Fourment M, Magee AF, Whidden C, Bilge A, Matsen FA, Minin VN. 19 Dubious Ways to Compute the Marginal Likelihood of a Phylogenetic Tree Topology. Systematic Biology. 2020;69(2):209-20. doi: 10.1093/sysbio/syz046.
- [69] Meyer X. Adaptive Tree Proposals for Bayesian Phylogenetic Inference. Systematic Biology. 2021. Epub 20210130. doi: 10.1093/sysbio/syab004.
- [70] Felsenstein J. Confidence-Limits on Phylogenies: an Approach Using the Bootstrap. Evolution. 1985;39(4):783-91. doi: Doi 10.2307/2408678.
- [71] Pattengale ND, Alipour M, Bininda-Emonds OR, Moret BM, Stamatakis A. How many bootstrap replicates are necessary? Journal of Computational Biology. 2010;17(3):337-54. doi: 10.1089/cmb.2009.0179.
- [72] Sayyari E, Mirarab S. Fast Coalescent-Based Computation of Local Branch Support from Quartet Frequencies. Molecular Biology and Evolution. 2016;33(7):1654-68. Epub 20160415. doi: 10.1093/molbev/msw079.
- [73] Shimodaira H, Hasegawa M. Multiple comparisons of log-likelihoods with applications to phylogenetic inference. Molecular Biology and Evolution. 1999;16(8):1114-6. doi: 10.1093/oxfordjournals.molbev.a026201.
- [74] Simon C. An Evolving View of Phylogenetic Support. Systematic Biology. 2020. Epub 20200911. doi: 10.1093/sysbio/syaa068.
- [75] Dereeper A, Guignon V, Blanc G, Audic S, Buffet S, Chevenet F, et al. Phylogeny.fr: robust phylogenetic analysis for the non-specialist. Nucleic Acids Research. 2008;36(Web Server issue):W465-9. Epub 20080419. doi: 10.1093/nar/gkn180.
- [76] Trifinopoulos J, Nguyen LT, von Haeseler A, Minh BQ. W-IQ-TREE: a fast online phylogenetic tool for maximum likelihood analysis. Nucleic Acids Research. 2016;44(W1):W232-5. Epub 20160415. doi: 10.1093/nar/gkw256.
- [77] Tamura K, Stecher G, Kumar S. MEGA11: Molecular Evolutionary Genetics Analysis Version 11. Molecular Biology and Evolution. 2021;38(7):3022-7. doi: 10.1093/molbev/msab120.
- [78] Gouy M, Guindon S, Gascuel O. SeaView version 4: A multiplatform graphical user interface for sequence alignment and phylogenetic tree building. Molecular Biology and Evolution. 2010;27(2):221-4. doi: 10.1093/molbev/msp259.
- [79] Minh BQ, Schmidt HA, Chernomor O, Schrempf D, Woodhams MD, von Haeseler A, et al. IQ-TREE 2: New Models and Efficient Methods for Phylogenetic Inference in the Genomic Era. Molecular Biology and Evolution. 2020;37(5):1530-4. doi: 10.1093/molbev/msaa015.
- [80] Kozlov AM, Darriba D, Flouri T, Morel B, Stamatakis A. RAxML-NG: a fast, scalable and user-friendly tool for maximum likelihood phylogenetic inference. Bioinformatics. 2019;35(21):4453-5. doi: 10.1093/bioinformatics/btz305.
- [81] Huson DH. SplitsTree: analyzing and visualizing evolutionary data. Bioinformatics. 1998;14(1):68-73. doi: 10.1093/bioinformatics/14.1.68.
- [82] Altenhoff AM, Train CM, Gilbert KJ, Mediratta I, Mendes de Farias T, Moi D, et al. OMA orthology in 2021: website overhaul, conserved isoforms, ancestral gene order and more. Nucleic Acids Research. 2021;49(D1):D373-D9. doi: 10.1093/nar/gkaa1007.
- [83] The UniProt Consortium. UniProt: the universal protein knowledgebase in 2021. Nucleic Acids Research. 2021;49(D1):D480-D9. doi: 10.1093/nar/gkaa1100.
- [84] Mendler K, Chen H, Parks DH, Lobb B, Hug LA, Doxey AC. AnnoTree: visualization and exploration of a functionally annotated microbial tree of life. Nucleic Acids Research. 2019;47(9):4442-8. doi: 10.1093/nar/gkz246.
- [85] Huerta-Cepas J, Serra F, Bork P. ETE 3: Reconstruction, Analysis, and Visualization of Phylogenomic Data. Molecular Biology and Evolution. 2016;33(6):1635-8. Epub 2016/02/26. doi: 10.1093/molbev/msw046.
- [86] Camacho C, Coulouris G, Avagyan V, Ma N, Papadopoulos J, Bealer K, et al. BLAST+: architecture and applications. BMC Bioinformatics. 2009;10:421. doi: 10.1186/1471-2105-10-421.
- [87] Buchfink B, Reuter K, Drost HG. Sensitive protein alignments at tree-of-life scale using DIAMOND. Nature Methods. 2021;18(4):366-8. Epub 20210407. doi: 10.1038/s41592-021-01101-x.
- [88] Steinegger M, Söding J. MMseqs2 enables sensitive protein sequence searching for the analysis of massive data sets. Nature Biotechnology. 2017;35(11):1026-8. Epub 2017/10/16. doi: 10.1038/nbt.3988.
- [89] Cosentino S, Iwasaki W. SonicParanoid: fast, accurate and easy orthology inference. Bioinformatics. 2019;35(1):149-51. doi: 10.1093/bioinformatics/bty631.
- [90] Emms DM, Kelly S. OrthoFinder: phylogenetic orthology inference for comparative genomics. Genome Biology. 2019;20(1):238. Epub 20191114. doi: 10.1186/s13059-019-1832-y.
- [91] Li L, Stoeckert CJ, Roos DS. OrthoMCL: identification of ortholog groups for eukaryotic genomes. Genome Research. 2003;13(9):2178-89. doi: 10.1101/gr.1224503.
- [92] Derelle R, Philippe H, Colbourne JK. Broccoli: Combining Phylogenetic and Network Analyses for Orthology Assignment. Molecular Biology and Evolution. 2020;37(11):3389-96. doi: 10.1093/molbev/msaa159.
- [93] Subramanian AR, Kaufmann M, Morgenstern B. DIALIGN-TX: greedy and progressive approaches for segment-based multiple sequence alignment. Algorithms for Molecular Biology. 2008;3:6. Epub 20080527. doi: 10.1186/1748-7188-3-6.
- [94] Thompson JD, Linard B, Lecompte O, Poch O. A comprehensive benchmark study of multiple sequence alignment methods: current challenges and future perspectives. PLoS One. 2011;6(3):e18093. Epub 20110331. doi: 10.1371/journal.pone.0018093.
- [95] Redelings BD. Bali-Phy version 3: Model-based co-estimation of alignment and phylogeny. Bioinformatics. 2021. Epub 20210302. doi: 10.1093/bioinformatics/btab129.
- [96] Liu K, Raghavan S, Nelesen S, Linder CR, Warnow T. Rapid and accurate large-scale coestimation of sequence alignments and phylogenetic trees. Science. 2009;324(5934):1561-4. doi: 10.1126/science.1171243.
- [97] Liu K, Warnow TJ, Holder MT, Nelesen SM, Yu J, Stamatakis AP, et al. SATe-II: very fast and accurate simultaneous estimation of multiple sequence alignments and phylogenetic trees. Systematic Biology. 2012;61(1):90-106. Epub 20111201. doi: 10.1093/sysbio/syr095.
- [98] Mirarab S, Nguyen N, Guo S, Wang LS, Kim J, Warnow T. PASTA: Ultra-Large Multiple Sequence Alignment for Nucleotide and Amino-Acid Sequences. Journal of Computational Biology. 2015;22(5):377-86. Epub 20141230. doi: 10.1089/cmb.2014.0156.
- [99] Pervez MT, Babar ME, Nadeem A, Aslam M, Awan AR, Aslam N, et al. Evaluating the accuracy and efficiency of multiple sequence alignment methods. Evolutionary Bioinformatics Online. 2014;10:205-17. Epub 20141207. doi: 10.4137/EBO.S19199.
- [100] Nute M, Saleh E, Warnow T. Evaluating Statistical Multiple Sequence Alignment in Comparison to Other Alignment Methods on Protein Data Sets. Systematic Biology. 2019;68(3):396-411. doi: 10.1093/sysbio/syy068.
- [101] Castresana J. Selection of conserved blocks from multiple alignments for their use in phylogenetic analysis. Molecular Biology and Evolution. 2000;17(4):540-52. doi: 10.1093/oxfordjournals.molbev.a026334.
- [102] Talavera G, Castresana J. Improvement of phylogenies after removing divergent and ambiguously aligned blocks from protein sequence alignments. Systematic Biology. 2007;56(4):564-77. doi: 10.1080/10635150701472164.
- [103] Criscuolo A, Gribaldo S. BMGE (Block Mapping and Gathering with Entropy): a new software for selection of phylogenetic informative regions from multiple sequence alignments. BMC Evolutionary Biology. 2010;10:210. Epub 20100713. doi: 10.1186/1471-2148-10-210.
- [104] Misof B, Misof K. A Monte Carlo approach successfully identifies randomness in multiple sequence alignments: a more objective means of data exclusion. Systematic Biology. 2009;58(1):21-34. Epub 20090520. doi: 10.1093/sysbio/syp006.
- [105] Whelan S, Irisarri I, Burki F. PREQUAL: detecting non-homologous characters in sets of unaligned homologous sequences. Bioinformatics. 2018;34(22):3929-30. doi: 10.1093/bioinformatics/bty448.
- [106] Wu M, Chatterji S, Eisen JA. Accounting for alignment uncertainty in phylogenomics. PLoS One. 2012;7(1):e30288. Epub 20120117. doi: 10.1371/journal.pone.0030288.
- [107] Tanabe AS. Kakusan4 and Aminosan: two programs for comparing nonpartitioned, proportional and separate models for combined molecular phylogenetic analyses of multilocus sequence data. Molecular Ecology Resources. 2011;11(5):914-21. Epub 20110519. doi: 10.1111/j.1755-0998.2011.03021.x.
- [108] Kalyaanamoorthy S, Minh BQ, Wong TKF, von Haeseler A, Jermiin LS. ModelFinder: fast model selection for accurate phylogenetic estimates. Nature Methods. 2017;14(6):587-9. Epub 20170508. doi: 10.1038/nmeth.4285.
- [109] Lanfear R, Frandsen P, Wright A, Senfeld T, Calcott B. PartitionFinder 2: New Methods for Selecting Partitioned Models of Evolution for Molecular and Morphological Phylogenetic Analyses. Molecular Biology and Evolution. 2017;34(3):772-3. doi: 10.1093/molbev/msw260.
- [110] Darriba D, Posada D, Kozlov AM, Stamatakis A, Morel B, Flouri T. ModelTest-NG: A New and Scalable Tool for the Selection of DNA and Protein Evolutionary Models. Molecular Biology and Evolution. 2020;37(1):291-4. doi: 10.1093/molbev/msz189.
- [111] Posada D. jModelTest: Phylogenetic model averaging. Molecular Biology and Evolution. 2008;25(7):1253-6. doi: 10.1093/molbev/msn083.
- [112] Darriba D, Taboada G, Doallo R, Posada D. ProtTest 3: fast selection of best-fit models of protein evolution. Bioinformatics. 2011;27(8):1164-5. doi: 10.1093/bioinformatics/btr088.
- [113] Lefort V, Longueville JE, Gascuel O. SMS: Smart Model Selection in PhyML. Molecular Biology and Evolution. 2017;34(9):2422-4. doi: 10.1093/molbev/msx149.
- [114] Baele G, Li W, Drummond A, Suchard M, Lemey P. Accurate Model Selection of Relaxed Molecular Clocks in Bayesian Phylogenetics. Molecular Biology and Evolution. 2013;30(2):239-43. doi: 10.1093/molbev/mss243.
- [115] Hoang D, Chernomor O, von Haeseler A, Minh B, Vinh L. UFBoot2: Improving the Ultrafast Bootstrap Approximation. Molecular Biology and Evolution. 2018;35(2):518-22. doi: 10.1093/molbev/msx281.
- [116] Stamatakis A, Hoover P, Rougemont J. A rapid bootstrap algorithm for the RAxML Web servers. Systematic Biology. 2008;57(5):758-71. doi: 10.1080/10635150802429642.
- [117] Zhou X, Shen XX, Hittinger CT, Rokas A. Evaluating Fast Maximum Likelihood-Based Phylogenetic Programs Using Empirical Phylogenomic Data Sets. Molecular Biology and Evolution. 2018;35(2):486-503. doi: 10.1093/molbev/msx302.
- [118] Guindon S, Dufayard JF, Lefort V, Anisimova M, Hordijk W, Gascuel O. New algorithms and methods to estimate maximum-likelihood phylogenies: assessing the performance of PhyML 3.0. Systematic Biology. 2010;59(3):307-21. Epub 2010/03/29. doi: 10.1093/sysbio/syq010.
- [119] Felsenstein J. PHYLIP-Phylogeny inference package. Cladistics. 1989;5:164-6.
- [120] Swofford D. PAUP*: Phylogenetic analysis using parsimony and other methods. Sinauer Associates; 2001.
- [121] Yang Z. PAML 4: phylogenetic analysis by maximum likelihood. Molecular Biology and Evolution. 2007;24(8):1586-91. Epub 20070504. doi: 10.1093/molbev/msm088.
- [122] Shimada MK, Nishida T. A modification of the PHYLIP program: A solution for the redundant cluster problem, and an implementation of an automatic bootstrapping on trees inferred from original data. Molecular Phylogenetics and Evolution. 2017;109:409-14. Epub 20170220. doi: 10.1016/j.ympev.2017.02.012.
- [123] Ronquist F, Teslenko M, van der Mark P, Ayres DL, Darling A, Höhna S, et al. MrBayes 3.2: efficient Bayesian phylogenetic inference and model choice across a large model space. Systematic Biology. 2012;61(3):539-42. doi: 10.1093/sysbio/sys029.
- [124] Suchard M, Lemey P, Baele G, Ayres D, Drummond A, Rambaut A. Bayesian phylogenetic and phylodynamic data integration using BEAST 1.10. Virus Evolution. 2018;4(1). doi: 10.1093/ve/vey016.
- [125] Bouckaert R, Vaughan TG, Barido-Sottani J, Duchêne S, Fourment M, Gavryushkina A, et al. BEAST 2.5: An advanced software platform for Bayesian evolutionary analysis. PLOS Computational Biology. 2019;15(4):e1006650. Epub 20190408. doi: 10.1371/journal.pcbi.1006650.
- [126] Drummond AJ, Bouckaert RR. Bayesian Evolutionary Analysis with BEAST: Cambridge University Press; 2015.
- [127] Simonsen M, Mailund T, Pedersen CNS, editors. Rapid Neighbour-Joining. Proceedings of the 8th Workshop in Algorithms in Bioinformatics; 2008: Springer Verlag.
- [128] Price MN, Dehal PS, Arkin AP. FastTree 2--approximately maximum-likelihood trees for large alignments. PLoS One. 2010;5(3):e9490. Epub 2010/03/10. doi: 10.1371/journal.pone.0009490.
- [129] Konno N, Kijima Y, Watano K, Ishiguro S, Ono K, Tanaka M, et al. Deep distributed computing to reconstruct extremely large lineage trees. Nature Biotechnology. 2021.
- [130] Janies D, Studer J, Handelman S, Linchangco G. A comparison of supermatrix and supertree methods for multilocus phylogenetics using organismal datasets. Cladistics. 2013;29(5):560-6. doi: 10.1111/cla.12014.
- [131] Zhang C, Scornavacca C, Molloy EK, Mirarab S. ASTRAL-Pro: Quartet-Based Species-Tree Inference despite Paralogy. Molecular Biology and Evolution. 2020;37(11):3292-307. doi: 10.1093/molbev/msaa139.
- [132] Mirarab S, Warnow T. ASTRAL-II: coalescent-based species tree estimation with many hundreds of taxa and thousands of genes. Bioinformatics. 2015;31(12):44-52. doi: 10.1093/bioinformatics/btv234.
- [133] Molloy E, Warnow T. TreeMerge: a new method for improving the scalability of species tree estimation methods. Bioinformatics. 2019;35(14):I417-I26. doi: 10.1093/bioinformatics/btz344.
- [134] Heled J, Drummond A. Bayesian Inference of Species Trees from Multilocus Data. Molecular Biology and Evolution. 2010;27(3):570-80. doi: 10.1093/molbev/msp274.
- [135] Morel B, Kozlov A, Stamatakis A, Szollosi G. GeneRax: A Tool for Species-Tree-Aware Maximum Likelihood-Based Gene Family Tree Inference under Gene Duplication, Transfer, and Loss. Molecular Biology and Evolution. 2020;37(9):2763-74. doi: 10.1093/molbev/msaa141.
- [136] Drillon G, Champeimont R, Oteri F, Fischer G, Carbone A. Phylogenetic Reconstruction Based on Synteny Block and Gene Adjacencies. Molecular Biology and Evolution. 2020;37(9):2747-62. doi: 10.1093/molbev/msaa114.
- [137] Letunic I, Bork P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 2021;49(W1):W293-W6. doi: 10.1093/nar/gkab301.
- [138] Yu G, Smith D, Zhu H, Guan Y, Lam T. GGTREE: an R package for visualization and annotation of phylogenetic trees with their covariates and other associated data. Methods in Ecology and Evolution. 2017;8(1):28-36. doi: 10.1111/2041-210X.12628.
- [139] Schliep KP. phangorn: phylogenetic analysis in R. Bioinformatics. 2011;27(4):592-3. doi: 10.1093/bioinformatics/btq706.
- [140] Paradis E, Claude J, Strimmer K. APE: Analyses of Phylogenetics and Evolution in R language. Bioinformatics. 2004;20(2):289-90. doi: 10.1093/bioinformatics/btg412.
- [141] Rambaut A. FigTree 2021. Available from: https://github.com/rambaut/figtree.
- [142] Bianchini G. TreeViewer 2021. Available from: https://treeviewer.org.
- [143] Waterhouse A, Procter J, Martin D, Clamp M, Barton G. Jalview Version 2-a multiple sequence alignment editor and analysis workbench. Bioinformatics. 2009;25(9):1189-91. doi: 10.1093/bioinformatics/btp033.
- [144] Xia X. DAMBE7: New and Improved Tools for Data Analysis in Molecular Biology and Evolution. Molecular Biology and Evolution. 2018;35(6):1550-2. doi: 10.1093/molbev/msy073.
- [145] Lemoine F, Correia D, Lefort V, Doppelt-Azeroual O, Mareuil F, Cohen-Boulakia S, et al. NGPhylogeny.fr: new generation phylogenetic services for non-specialists. Nucleic Acids Research. 2019;47(W1):W260-W5. doi: 10.1093/nar/gkz303.
- [146] Asnicar F, Thomas A, Beghini F, Mengoni C, Manara S, Manghi P, et al. Precise phylogenetic analysis of microbial isolates and genomes from metagenomes using PhyloPhlAn 3.0. Nature Communications. 2020;11(1). doi: 10.1038/s41467-020-16366-7.
- [147] Gruber-Vodicka HR, Seah BKB, Pruesse E. phyloFlash: Rapid Small-Subunit rRNA Profiling and Targeted Assembly from Metagenomes. mSystems. 2020;5(5). Epub 20201027. doi: 10.1128/mSystems.00920-20.
- [148] Bolyen E, Rideout J, Dillon M, Bokulich N, Abnet C, Al-Ghalith G, et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 2019;37(8):852-7. doi: 10.1038/s41587-019-0209-9.
- [149] Pruesse E, Peplies J, Glöckner FO. SINA: accurate high-throughput multiple sequence alignment of ribosomal RNA genes. Bioinformatics. 2012;28(14):1823-9. Epub 20120503. doi: 10.1093/bioinformatics/bts252.
- [150] Gascuel O, Steel M. A Darwinian Uncertainty Principle. Systematic Biology. 2020;69(3):521-9. doi: 10.1093/sysbio/syz054.
- [151] Parks DH, Chuvochina M, Waite DW, Rinke C, Skarshewski A, Chaumeil PA, et al. A standardized bacterial taxonomy based on genome phylogeny substantially revises the tree of life. Nature Biotechnology. 2018;36(10):996-1004. Epub 20180827. doi: 10.1038/nbt.4229.
- [152] Ogden TH, Rosenberg MS. Multiple sequence alignment accuracy and phylogenetic inference. Systematic Biology. 2006;55(2):314-28. doi: 10.1080/10635150500541730.
- [153] Chan CX, Ragan MA. Next-generation phylogenomics. Biology Direct. 2013;8:3. doi: 10.1186/1745-6150-8-3.
- [154] Karin E, Ashkenazy H, Hein J, Pupko T. A Simulation-Based Approach to Statistical Alignment. Systematic Biology. 2019;68(2):252-66. doi: 10.1093/sysbio/syy059.
- [155] Bogusz M, Whelan S. Phylogenetic Tree Estimation With and Without Alignment: New Distance Methods and Benchmarking. Systematic Biology. 2017;66(2):218-31. doi: 10.1093/sysbio/syw074.
- [156] Ali RH, Bogusz M, Whelan S. Identifying Clusters of High Confidence Homologies in Multiple Sequence Alignments. Molecular Biology and Evolution. 2019;36(10):2340-51. doi: 10.1093/molbev/msz142.
- [157] Löytynoja A, Goldman N. Phylogeny-aware gap placement prevents errors in sequence alignment and evolutionary analysis. Science. 2008;320(5883):1632-5. doi: 10.1126/science.1158395.
- [158] Tao Q, Barba-Montoya J, Huuki LA, Durnan MK, Kumar S. Relative Efficiencies of Simple and Complex Substitution Models in Estimating Divergence Times in Phylogenomics. Molecular Biology and Evolution. 2020;37(6):1819-31. doi: 10.1093/molbev/msaa049.
- [159] Spielman S. Relative Model Fit Does Not Predict Topological Accuracy in Single-Gene Protein Phylogenetics. Molecular Biology and Evolution. 2020;37(7):2110-23. doi: 10.1093/molbev/msaa075.
- [160] Abadi S, Avram O, Rosset S, Pupko T, Mayrose I. ModelTeller: Model Selection for Optimal Phylogenetic Reconstruction Using Machine Learning. Molecular Biology and Evolution. 2020;37(11):3338-52. doi: 10.1093/molbev/msaa154.
- [161] Minh B, Dang C, Vinh L, Lanfear R. QMaker: Fast and accurate method to estimate empirical models of protein evolution. Systematic Biology. 2021. Epub 20210222. doi: 10.1093/sysbio/syab010.
- [162] Trivedi R, Nagarajaram HA. Amino acid substitution scoring matrices specific to intrinsically disordered regions in proteins. Scientific Reports. 2019;9(1):16380. Epub 20191108. doi: 10.1038/s41598-019-52532-8.
- [163] Sonnhammer EL, Hollich V. Scoredist: a simple and robust protein sequence distance estimator. BMC Bioinformatics. 2005;6:108. Epub 20050427. doi: 10.1186/1471-2105-6-108.
- [164] Huang J, Liu Y, Zhu T, Yang Z. The Asymptotic Behavior of Bootstrap Support Values in Molecular Phylogenetics. Systematic Biology. 2021;70(4):774-85. doi: 10.1093/sysbio/syaa100.
- [165] Lemoine F, Domelevo Entfellner JB, Wilkinson E, Correia D, Dávila Felipe M, De Oliveira T, et al. Renewing Felsenstein’s phylogenetic bootstrap in the era of big data. Nature. 2018;556(7702):452-6. Epub 20180418. doi: 10.1038/s41586-018-0043-0.
- [166] Lutteropp S, Kozlov AM, Stamatakis A. A fast and memory-efficient implementation of the transfer bootstrap. Bioinformatics. 2020;36(7):2280-1. doi: 10.1093/bioinformatics/btz874.
- [167] Suvorov A, Hochuli J, Schrider DR. Accurate Inference of Tree Topologies from Multiple Sequence Alignments Using Deep Learning. Systematic Biology. 2020;69(2):221-33. doi: 10.1093/sysbio/syz060.
- [168] Flagel L, Brandvain Y, Schrider DR. The Unreasonable Effectiveness of Convolutional Neural Networks in Population Genetic Inference. Molecular Biology and Evolution. 2019;36(2):220-38. doi: 10.1093/molbev/msy224.
- [169] Jumper J, Evans R, Pritzel A, Green T, Figurnov M, Ronneberger O, et al. Highly accurate protein structure prediction with AlphaFold. Nature. 2021. Epub 20210715. doi: 10.1038/s41586-021-03819-2.
- [170] Ishikawa S, Zhukova A, Iwasaki W, Gascuel O. A Fast Likelihood Method to Reconstruct and Visualize Ancestral Scenarios. Molecular Biology and Evolution. 2019;36(9):2069-85. doi: 10.1093/molbev/msz131.
- [171] Rosindell J, Harmon LJ. OneZoom: a fractal explorer for the tree of life. PLOS Biology. 2012;10(10):e1001406. Epub 20121016. doi: 10.1371/journal.pbio.1001406.
- [172] Hughes T, Hyun Y, Liberles DA. Visualising very large phylogenetic trees in three dimensional hyperbolic space. BMC Bioinformatics. 2004;5:48. Epub 20040429. doi: 10.1186/1471-2105-5-48.
- [173] Bandelt HJ, Forster P, Röhl A. Median-joining networks for inferring intraspecific phylogenies. Molecular Biology and Evolution. 1999;16(1):37-48. doi: 10.1093/oxfordjournals.molbev.a026036.
- [174] Bandelt HJ, Forster P, Sykes BC, Richards MB. Mitochondrial portraits of human populations using median networks. Genetics. 1995;141(2):743-53.
- [175] Zhang C, Ogilvie HA, Drummond AJ, Stadler T. Bayesian Inference of Species Networks from Multilocus Sequence Data. Molecular Biology and Evolution. 2018;35(2):504-17. doi: 10.1093/molbev/msx307.
- [176] Iwasaki W, Takagi T. An intuitive, informative, and most balanced representation of phylogenetic topologies. Systematic Biology. 2010;59(5):584-93. Epub 20100903. doi: 10.1093/sysbio/syq044.
- [177] Koch NM, Parry LA. Death is on Our Side: Paleontological Data Drastically Modify Phylogenetic Hypotheses. Systematic Biology. 2020;69(6):1052-67. doi: 10.1093/sysbio/syaa023.
- [178] Varon-Gonzalez C, Whelan S, Klingenberg C. Estimating Phylogenies from Shape and Similar Multidimensional Data: Why It Is Not Reliable. Systematic Biology. 2020;69(5):863-83. doi: 10.1093/sysbio/syaa003.
- [179] Ragan MA. Trees and networks before and after Darwin. Biology Direct. 2009;4:43; discussion Epub 20091116. doi: 10.1186/1745-6150-4-43.
- [180] Matsui M, Tomita M, Kanai A. Comprehensive computational analysis of bacterial CRP/FNR superfamily and its target motifs reveals stepwise evolution of transcriptional networks. Genome Biology and Evolution. 2013;5(2):267-82. doi: 10.1093/gbe/evt004.
- [181] Rohwer F, Edwards R. The Phage Proteomic Tree: a genome-based taxonomy for phage. Journal of Bacteriology. 2002;184(16):4529-35. doi: 10.1128/JB.184.16.4529-4535.2002.
- [182] Jang H, Bolduc B, Zablocki O, Kuhn J, Roux S, Adriaenssens E, et al. Taxonomic assignment of uncultivated prokaryotic virus genomes is enabled by gene-sharing networks. Nature Biotechnology. 2019;37(6):632-+. doi: 10.1038/s41587-019-0100-8.
- [183] Malik AJ, Poole AM, Allison JR. Structural Phylogenetics with Confidence. Molecular Biology and Evolution. 2020;37(9):2711-26. doi: 10.1093/molbev/msaa100.
- [184] Matsumoto H, Mimori T, Fukunaga T. Novel metric for hyperbolic phylogenetic tree embeddings. Biology Methods and Protocols. 2021;6(1):bpab006. Epub 20210327. doi: 10.1093/biomethods/bpab006.
- [185] Robinson DF, Foulds LR. Comparison of Phylogenetic Trees. Mathematical Biosciences. 1981;53(1-2):131-47. doi: Doi 10.1016/0025-5564(81)90043-2.
- [186] Lewitus E, Aristide L, Morlon H. Characterizing and Comparing Phylogenetic Trait Data from Their Normalized Laplacian Spectrum. Systematic Biology. 2020;69(2):234-48. doi: 10.1093/sysbio/syz061.
- [187] Yang Z. Molecular Evolution: A Statistical Approach: Oxford University Press; 2014.
- [188] Warnow T. Computational Phylogenetics: An Introduction to Designing Methods for Phylogeny: Cambridge University Press; 2017.
- [189] Baxevanis AD, Bader GD, Wishart DS. Bioinformatics: A practical guide to the analysis of genes and proteins: Wiley; 2020.
- [190] Pevsner J. Bioinformatics and Functional Genomics: Wiley-Blackwell; 2015.
- [191] Hall BG. Phylogenetic Trees Made Easy: A How-To Manual: Sinauer; 2018.
- [192] Sober E. Reconstructing the Past: Parsimony, Evolution, and Inference. MIT Press; 1989.
- [193] Sober E. Evidence and Evolution: The Logic Behind The Science: Cambridge University Press; 2008.
- [194] Minaka N. 系統樹曼荼羅―チェイン・ツリー・ネットワーク: NTT Publishing Co., Ltd.; 2012.
著者略歴
 |
松井 求 東京大学大学院理学系研究科助教。2014年、慶應義塾大学大学院政策・メディア研究科後期博士課程修了。博士(学術)。東京大学大学院理学系研究科特任研究員、日本学術振興会特別研究員を経て、2017年より現職。新たな分子系統解析手法の開発をライフワークとして続けているほか、令和元年より、新学術「ポストコッホ生態」計画班代表として微生物生態の解明に取り組んでいる。趣味は弓道、美術館巡り。 |