JSBi Bioinformatics Review
Online ISSN : 2435-7022
Primers
Moving beyond genome wide association studies with statistical fine-mapping
Qingbo S. Wang
Author information
JOURNAL OPEN ACCESS FULL-TEXT HTML

2023 Volume 4 Issue 1 Pages 35-51

Details
Abstract

ヒトゲノムの個人差と様々な形質との相関を大規模に検定するゲノムワイド関連解析(Genome Wide Association Studies=GWAS)により、形質に関連するゲノム領域が次々と明らかにされている。一方、GWASにより同定された個々の関連領域には時に数千もの統計的有意な変異が含まれ、それら全てが形質に因果的に寄与するわけではないことが知られる。ゲノムに刻まれた生命の設計図をより厳密に理解するためには、そうした領域内で因果的効果を有する変異を“精緻(fine)”に絞り込み理解することが重要とされる。

そこで本総説では、因果的変異を統計的に推定するfine-mapping手法に関して解説する。単一変異の寄与のみを考慮した単純なモデルから、より複雑かつ近年のバイオバンク規模のデータに適用可能なモデルまでを概観すると共に、疾患解析への応用や機能ゲノミクス、実験的検証との関連に関しても触れる中で、GWASのその先(post-GWAS)の時代の解析に関して展望する。

はじめに

ヒトゲノムの個人差と身長や体質、疾患感受性等様々な形質との相関を大規模に検定するゲノムワイド関連解析(Genome Wide Association Studies=GWAS)の普及により、形質に関連するゲノム領域が次々と明らかにされている[1, 2, 3](補足1)。GWASを共変量の補正等の手法の詳細を省き端的に表現すると、一つ一つのゲノム変異(variant;Box. 1)と形質との“関連”(Association)の検定を素直に繰り返すことで形質に関連する“領域”を炙り出す解析である。ここで領域と表現されるのは、ゲノム上で近傍に位置する変異には同一個人で共に観測される確率が高いという性質(連鎖不平衡=Linkage Disequilibrium=LD[4, 5, 6])があり、関連解析における統計量(例;p値)も似ることが多いためである(図12補足2)。すなわち、GWASにより同定された個々の関連領域は時に数百~数千もの有意な変異が含まれるわけであるが、それぞれが同様に形質に因果的寄与を持つとは考えにくい。例えば、あるタンパク質の翻訳を止めるナンセンス変異と、同じタンパク質の翻訳にはほぼ影響しない同義置換変異が強いLD関係にある場合、実際に形質に因果的に寄与する変異は前者だけであっても、後者もGWASにおいては同じだけ“関連”する(つまりほぼ同じp値を取る)。

図1:GWAS単体から因果的変異を同定するのは困難である(1)

1000 Genomes[80]に実在する日本人104人のゲノムデータから、3つの領域(A~C)において数個の因果的変異を仮想的に各3パターン割り当て、GWASを行い、統計量(-log10p);スケールはプロット間で異なる)をマンハッタンプロットで示した(ノイズは正規分布させた)。3×3=9パターンそれぞれに関して、どれが因果的変異か、見分けられるだろうか。

GWASを利用した関連領域の同定は、遺伝子レベルでの機能の推定をはじめ多くの場面で間違いなく有用だが、ゲノムに刻まれた生命の設計図をより精緻に理解する上では、そうした領域内での個別の変異の因果的効果をより詳細に推定することが重要になるだろう[7, 8, 9]。そこで、ゲノム変異の形質への影響を“精緻(fine)”に理解するための解析はfine-mappingと呼ばれ、特に大規模ゲノム解析データを利用して統計的にそれを行う試みを“統計的fine-mapping”と呼ぶ[10, 11, 12]。本稿では、統計的fine-mapping手法を概観すると共に、実験による検証手法に関しても簡潔に触れる中で、fine-mappingを意識したGWASのその先(post-GWAS)の時代の解析に関して展望する(補足3)。

図2:GWAS単体から因果的変異を同定するのは困難である(2)

図1における因果的変異を橙色で記した。また、行は因果的変異の個数(1~3個)に対応し、列はLDの複雑さに対応させている(A<B<Cの順に複雑)。LDが複雑、かつ因果的変異が複数ある際には特に、因果的変異の同定が困難であることが直感的に理解出来るだろう。

統計的fine-mappingの目標

N人に関してある形質のプロフィール y=(y1, y2, ..., yNTm個のゲノム変異に関する情報 X=(x1 x2 ... xm)が与えられた際に、GWASにおいては、それぞれの変異と形質との関連を順々に検定することが目標となる(xii 番目のゲノム変異に関するN人分の情報、XN×m行列)。即ち、各変異に対応するベクトルxiに関して、y=βxiϵとする線形回帰モデルに当てはめ、効果量β=0とする帰無仮説を順々に検定する(ϵは正規分布に従うノイズ項)。ここでの効果量とは前述のLD故に、必ずしも因果的効果の量ではないことに注意する。

一方統計的fine-mappingにおいては、各変異が因果的に形質に効果を持つかどうか、及び、効果があるとした際にその(因果的)効果量の大きさ(ベクトルβ; posterior effect size)を求めることが目標となる(Box 2)。つまり、各変異に関して効果の有無をそれぞれ1、0で表現したベクトル(causal configuration=因果的変異の配置)γ(長さmで、γi∈{0,1})と、(因果的とは限らない)効果量のベクトルbを利用して、形質yとゲノム情報Xの関係を以下のように表現:

  

y = + ϵ
  
β = γ b

(⨀は要素積)した際に、まずは個別の変異に関してそれが因果的変異(causal variant)である確率 pγi=1)に興味がある。これを特にPosterior Inclusion Probability(PIP)と呼ぶ。LDが複雑である場合、確度の高い変異を少数に絞れない場合も多い。その際にも有効な指標として、「これらの変異のうち少なくとも一つは因果的変異である確率は十分高い(例:95%以上)だろう」という要請を満たす最小の変異の集合を信用集合(credible set)(例:95%-credible set)と呼ぶ。Fine-mappingにおいては、こうしたPIP、因果的効果量(β)や信用集合等の指標を明らかにしていくことが目標となる(図3)。

図3:統計的fine-mapping概要

統計的fine-mappingの仮定するモデルと、PIP等重要な指標の概要を示した。

観測データ(つまり、GWAS結果)をもとに、直接は観測出来ない因果的変異の配置の推定を行うという性質から、現状主要なfine-mapping手法はBayes統計学を利用して発展してきた(補足4)。本稿においても以下ではBayesian fine-mappingに絞り解説する。一方、頻度主義に基づくfine-mapping手法[13, 14]にも発展途上であるが興味深い側面があり、Box 3を参照されたい。

疎なモデリング

現状のfine-mapping手法においては、興味のある領域内に存在する因果的変異の数は十分少ないこと(つまり疎=sparseである)ことが要請となる。これは[実験によるアプローチ]の項でも述べるように、実験的にもおおよそ正しいことが示されているのみならず、計算上の利点が大きい。例として、領域内に1,000個の変異がある際に、取りうる因果的変異の配置としては2の1000乗パターンと天文学的な数値になり、とても全ての配置を検討することは出来ないが、因果的変異は高々2つとすれば1000C21000C11000C0=500,501通りと、何となく計算が可能な気がしてくる。実際、初期のfine-mapping 手法[15, 16, 17]は、最も単純に因果的変異は注目する領域内にただ1つとモデリングしてそれを推定するという形を取った。[16]では、そうした単純な仮定のもとではPIPをGWASの要約統計量のみ(Box 45補足5)から高速に近似計算できる(Approximate Bayes Factor=ABFと呼ばれる)ことが示され、この簡便な方法は現在一行で実行可能なRコマンドとして実装される[18]など、未だ広く利用されている(図4)。

一方、ABFの背後にある極限にまで疎なモデリングにより失われる複雑性があることは否定出来ない。逆に、予め因果的変異が一つと近似して良いように領域を定義してあげれば、ABFの適用が可能であるとも言える。そのような発想に基づき、領域の定義とABFの適用を順々に実行するCOJO-ABF(Conditional Joint+ABF)手法が整備され、広く利用されてきた[19, 20, 21, 22]。

複数の因果的変異を含むモデリング

因果的変異が必ず1つという制限を緩和し、複数の因果的変異が存在しうるモデルの下でPIPを定量する手法も発展してきている。[23]では、6つまで因果的変異の存在を許しfine-mappingが行えるようになったが、それは計算量、スピードの面でゲノムワイドに適用するには不十分であった。計算の工夫を施すことでバイオバンクスケールでの適用が可能となったfine-mapping手法として、本稿では2つを紹介する。

一つ目の手法、FINEMAP[24]は、確率的探索(Shotgun Stochastic Search[25])を利用することで、全ての因果的変異の配置を評価することなく、PIPを近似する(Box 6図4)。具体的には、

  • 1)ランダムな因果的変異の配置を一つ評価する

  • 2)そこから因果的変異を一つ足す/減らす/一組入れ替える操作を行ったそれぞれの配置を評価し、それらの事後確率に応じて次の配置を決める

  • 3)2を収束まで、或いは事前に設定した上限回数まで繰り返す

という、いわば山登り的な手法を採用することにより、「ある程度あり得そうな配置のみを評価し、他は全て無視する」という発想のもと、精度を保ったまま計算時間の大幅な短縮を達成している。

二つ目の手法、SuSiE(Sum of Single Effects)[26]においては、その名の通り、領域全体としての因果的効果を、個々の因果的変異の効果(Single Effect)の足し合わせ(Sum)として表現する(Box 7図4)。もちろんそれらは実際には互いに独立に推定することは出来ないため、SuSiEにおいては、k個のsingle effect vector(β1, …, βk)を初期化し、iを1からkまで順々に変化させていく(つまりFor i in 1…k)中で、βi以外を固定して、βiの事後確率を推定するというプロセスを収束まで繰り返すことで、少しずつ個々のsingle effect vectorの推定を進めていく手法が取られる。

図4:種々のfine-mappingアルゴリズムの視覚的理解

本総説で紹介する代表的なfine-mappingアルゴリズムの概要を図示した(変異数を5つと固定し、本文では下付き文字としていた表記を通常文字とする等、可読性のために適宜簡便化されている。図3も同様)。

機能ゲノミクス情報を活用したfine-mapping

ここまで触れた統計的fine-mapping手法では、GWASの要約統計量とLD行列(のみ)が入力となる。即ち、[はじめに]の章ではナンセンス変異と同義置換変異を比べ、同義置換変異の方が実際に形質に影響を及ぼす可能性が(生物学的に)高いことに触れたが、そうした情報はここまでのモデルには組み込まれていない(例:両変異が完全にLDにある場合には、PIPは高々0.5ずつで留まることになる)。コーディング領域のみならず、non-coding領域に関しても、エピゲノム情報や、エンハンサー/プロモーター等、有効な機能アノテーションが多く存在する[27, 28]ことも考慮し、それらを生かして統計的fine-mappingの精度を向上させる発想は、functionally-informed fine-mapping(FIFM)と呼ばれ[29, 30]、事前分布を定義するBayes統計学の観点からも自然である。FIFMの代表的手法として、本稿では筆者が開発した手法[31]を紹介する(box 8図4)。

機能情報を因果的変異の特定に有効に活用する際には、複数の機能情報が与えられた際に、どの程度因果的変異らしさが増減するかを定量的な値として推定することが課題であった。そこで[31]においては、発想を逆転させ、まずは機能情報を使わずに、純粋に要約統計量とLD情報から統計的fine-mappingを行い、十分に確からしい(PIP>0.9)因果的変異と非因果的変異(PIP<0.0001) を同定することが最初のステップとなる(つまり、教師データの作成に一度通常のfine-mappingを適用する)。次にそれらに関して機能情報を付加し、機能情報のみを利用して因果的変異を予測する学習器を訓練することにより、機能情報のみを用いた因果的変異確率の定量的な予測が可能になる(この学習器の出力をExpression Modifier Score=EMSと呼ぶ)。最後にEMSを、因果的変異の配置の不均等な事前分布として反映させ、もう一度fine-mappingアルゴリズムを適用することにより、機能情報の集積により検出力を大幅に上昇したfine-mappingが行われる。筆者らの適用事例[31]では、49組織にわたり遺伝子発現を制御する変異を新規に多数(>20,000)同定し、それらが複雑形質の解釈に利用可能であることが示された。一方、腎臓等教師データ及び関連する特徴量の数が少ない組織では精度は限定的であることも示されたため、まだまだデータの拡充や手法の発展の意義は大きい。

Fine-mapping手法の発展

EMSに代表される、機能情報を生かして因果的変異の配置に関する事前分布を改善する手法が有効であるのと同様に、効果量の大きさに関しても、事前分布によりfine-mappingの精度が変わりうる。効果量の大きさに関して、計算上扱いやすい正規分布ではなく、より裾の重いLaplace分布[32, 33]や、効果量=0での確率密度関数を0にした分布[34]を利用した研究結果等散見されるが、現状精度の大きな改善には至っていない。

また、領域内に因果的変異は多くないという疎な仮定はfine-mappingの哲学そのものでもあるが、それを緩和することによる精度の向上も報告されている。[35]においては、領域内の変異を、少数の寄与の大きい因果的変異と、その他多数の寄与は小さいが0ではない変異に区別するモデルが採用されている。

さらに、バイオバンク間の連携[36, 37]が加速度的に進む現在においては、遺伝的背景の異なる複数のデータセットにfine-mappingを適用する重要性が増している。筆者らの最近の報告[38]で、欧米人を主にした集団[39]と東アジア人集団[40]の間で近傍遺伝子発現制御に関する因果的変異(causal eQTLs)はある程度共通していることが示されているように、複数集団の情報を相補的に比較、利用することで、理想的には検出力が向上すると考えられる。[41, 42, 43]等では実際に、遺伝的背景の異なる集団間で(効果量は異なるが)因果的変異は共通であるという仮定のもと、既存の手法[26, 29]を拡張させ、一定の精度向上が示された。一方、[44]に述べられるように、データの前処理や細かい部分での違いが偽陽性や検出力の低下に繋がる部分も大きく、まだまだ発展の余地が大きい。

Fine-mapping手法の疾患解析への応用

統計的fine-mappingにより因果的変異らしさ(PIP)を推定することの具体的な意義として、以下に二点触れる。

一つ目はcolocalization解析と呼ばれる手法[45, 46, 47]への貢献である。即ち、ある領域が複数形質と関連を示す際に、そこに共通の、或いは別々の機序が存在するのかという問いに対し、統計的fine-mappingを利用することで、漠然と“関連する領域が何となく一致している”ではなく、“因果的変異が一致している”という解像度まで進むことでより正確な考察が可能になる。特に、疾患形質と特定の遺伝子の(往々にして組織特異的な)発現制御の因果的変異の共有を示すことは、形質に対してある特定の遺伝子の発現が寄与している可能性を提示する点で有効性が大きい[11, 48, 49, 50, 51, 52]。

二つ目に、各個人のゲノム全体を俯瞰し、疾患や形質のリスクや度合いを予測するPolygenic Score(PGS)の構築[53, 54, 55]に関しても統計的fine-mappingを利用する有効性が示され始めている。PGSの構築においては、必ずしも因果的変異を精緻に推定せずとも、強いLD関係にある変異群のうち一つの変異を代表として選択しその効果を加味するアプローチがとられることが多い[56]が、ある集団で構築したPGSを別の遺伝的背景を持つ(即ち、LD構造の異なる)集団に適用させる際には、予測能が著しく低下することが知られている[57, 58]。[59]では、fine-mappingを行い因果的効果量を推定することにより、LD構造に左右されにくく、より安定した予測が集団間で可能になることが示された。

実験によるアプローチ

統計的fine-mappingと相性が良い実験手法としてここでは2つを紹介する(補足6)。

一つ目は、Massively Parallel Reporter Assay(MPRA)と呼ばれる類の手法[60, 61, 62]である。MPRAは一般に、数万~数十万のオリゴヌクレオチド配列(200bp程度)ライブラリをデザインし、下流にレポーター遺伝子と識別子(バーコード)を含むプラスミドに組み込み、培養細胞に導入した後、DNA量で正規化したRNA量を各オリゴに関して定量することにより、各200bp配列における転写効率を定量するという手順で行われる。その際、統計的fine-mappingで推定された因果的変異を含む配列、含まない配列の両者の転写効率を比較することで、変異の導入による転写制御効果を定量することが可能である。プラスミド、かつ短いDNA断片であるため細胞内での複雑な転写制御機構の多少粗い近似とはなるが、一度に数万~数十万単位の変異を実験検証出来るという超大規模性の価値は大きい。MPRAにより、統計的fine-mappingから予測される因果的変異の一定数が実際に制御活性を持つことが検証されると共に、LD関係にある多くの変異を含む領域内で実際に(大きな)因果的寄与を持つ変異はごく僅かであるという、統計的fine-mappingの背後にあるモデルの妥当性もある程度示されている[60, 63, 64](補足7)。

2つ目は、CRISPR/Casによるknock inを利用し実際に変異を導入する手法である[65, 66]。[66]では既知の疾患関連遺伝子DDX3Xに注目し、コーディング領域に、文字通り一塩基毎に変異を導入し、その効果を細胞生存数で定量した。同様の手法をゲノムワイドに適用するのは技術的に困難であるが、より生体内に近い環境で変異効果を検証出来る同様手法の価値は大きく、大規模性を長所とするMPRAと合わせて、今後も統計的fine-mappingにより提示された因果的変異の効果を検証する上で強力な手法となるだろう。

終わりに

ここまで、統計的fine-mappingの手法を概観した。GWASのその先へ進むべく、より解像度を上げ一塩基レベルでの解釈を試みるfine-mappingはこれからの時代において大きく力を発揮すると考えられるが、手法としては発展途上であり課題も多い。例として、本稿では“興味のある領域”を自明なものとして議論を進めたが、実際にはp値、LDの度合い等に応じて柔軟に領域を定めることそれ自体からfine-mappingは始まっているとも言える。サンプルサイズを数十万まで上げて初めて有意水準を超える領域の扱い等々…突き詰めると、そもそも因果的変異とは何か、という問いに行き着くのではないか。筆者のPh.D.時代の恩師の一人Hilary Finucane氏はよく統計学者George Box氏の格言[67]を借りて「All models are wrong, but some are useful」と言った。複雑なゲノムの形質への因果的寄与を特定の解析の枠組みに当てはめる統計的fine-mappingはこれからも、wrongだが大いにusefulなモデルとして発展し続けるだろう。また、その発展が、より広大なゲノム生物学の地平線と共にあることを述べ、本稿の結びとする。

Box. 1.注釈を要する英語表現と本論文における訳語の対応

Variant:変異(ゲノム生物学の文脈におけるvariantという英単語は、日本人類遺伝学会の策定に従うと、「多様体」或いは「バリアント」という訳語が推奨されているが、本総説では可読性の観点から通例に従い「変異」という語を用いた。)

Posterior effect size:因果的効果量(厳密には、Bayes統計の枠組みから計算される事後分布の平均値であるが、モデルのもとではそれを因果的効果と見做せるため、簡便のため因果的という表現を用いた。英文においても、posterior effect sizeとcausal effect sizeはほぼ同義として用いられることが多い。)

Causal configuration:因果的変異の配置(configurationには構成、形状といった訳語もあり得るが、最もイメージを掴みやすい表現として「配置」を採用した)

Causal variant:因果的変異(厳密にはモデルのもとで因果的に効果を有する変異。また、過去に筆者は講義等で原因変異という表現を用いたこともある。)

Credible set:信用集合(Bayes統計においてcredible intervalが信用区間と訳されること、及びfine-mappingの文脈においてcredible setは変異の“集合”(set)であることから、信用集合とした)

また、本稿の主題となるfine-mappingには、敢えて日本語を当てず英文のまま表記をした。訳すとすれば、“精緻推定”等だろうか、読者に委ねることとする。

Box. 2.統計的Fine-mappingのモデル

本文と重複する部分もあるが、統計的Fine-mappingのモデルに関してここでより詳細にまとめる。但し、本文を含み本総説では共変量は省略している。

y=(y1, y2, ..., yNTN人に関してある形質のプロフィール(長さNのベクトル)(平均0、分散1に標準化されたものとする)

X=(x1 x2 ... xm):m個のゲノム変異に関する情報(N×m行列)(xii番目のゲノム変異に関するN人分の情報、長さNのベクトル)

β=(β1, β2, ..., βmTm個のゲノム変異の因果的効果量(長さmのベクトル)

ϵ=(ϵ1, ϵ2, ..., ϵmT:ノイズ項(長さmのベクトル)。通常正規分布でモデルされるため、以下でもϵiN(0, σ2)とする。

とした際に、形質とゲノム変異の関係を y = + ϵ で表現する。ここで疎な効果量の仮定は、

γ=(γ1, γ2, ..., γmT:因果的変異の配置(長さmのベクトル、γi∈{0, 1}。即ち、各ゲノム変異が因果的変異であれば1、そうでない場合は0をとる)

を用いて、 β = γ b と表現される(⨀は要素積)。ここで、実際には計算の簡便性から、因果的変異でない多くの変異にも対応する効果量を便宜的に与え(それらはγi=0になるため特に意味はないが) b = ( b 1 , b 2 , , b m ) T を定義する(簡便のためbを正規分布に従うものとしてモデルすることが多いが、本文で述べたようにその分布を変更することもあり得る[32, 33, 34])。

因果的変異の配置γの取りうるパターンとしては、各変異が因果的変異である(γi=1)か否(γi=0)かで2m通り存在する。その集合をΓとし、特にi番目の変異が因果的変異であるとする配置の集合をΓiと表記する(即ち、各Γiには2m-1通りの配置が含まれる)。

γbに関する事前分布を適当に与えれば、観測データX, yのもとでγを観測する確率は(煩雑度合いはさておき)計算可能である。即ち、

p ( γ | X , y ) p ( X , y | γ ) p ( γ )

その際、変異 i 因果的変異である確率(PIPi)は PIP i = p ( γ i = 1 ) = γ Γ i p ( γ | X , y ) γ Γ p ( γ | X , y ) で記述される(即ち、γi=1という事象の周辺確率)。また、各変異のPIPが与えられた際に、100α%信用集合は、PIPの和がα以上になるような変異の集合の集合 C α = { C C all : i C PIP i α } を用いて、 CS ( α ) = argmin { | C | : C C α } と表現される(ここで|C|はCに含まれる変異の数で、Callは変異の集合の集合全体)。変異間の相関係数でフィルターがなされることも多いが、ここでは簡便のため省略した。

実際には全ての配置 γに関するpγ|X, y)を計算するのは容易ではなく、Box. 4, 5, 6, 7に述べるような工夫がされてきた。また、本文やBox. 8にあるように、通常pγ)は一様分布だが、functionally-informed fine-mappingでは、pγ)に機能情報に応じた分布を取らせることにより、生物学的機能を加味した検出力の向上が意図される。

Box. 3.Knockoffを利用したfine-mappingの可能性

統計的検定における偽陽性率を制御する一般的手法の一つとして、knockoffが存在し、ゲノムデータ解析においても適用されている[75, 76, 77, 14]。ゲノムデータ解析におけるknockoffの利用に関して詳細を省き直感的な表現をすると、

(1)本物と見分けがつきにくい擬似ゲノムデータ(knockoff genotype)を、形質データを見ることなく構築する(ExchangeabilityとConditional Independence)。

(2)興味のある領域に関して、本物のゲノムデータと擬似ゲノムデータ、両方を同時に特徴量として用い形質の予測を試みる。その際、本物のゲノムデータの予測率への寄与の方が大きいほど、領域と形質の間の関連に関して偽陽性率が低い。

という具合に、いわば精巧に用意した擬似データと比べることで相関の強さを偽陽性率の尺度で推定するという手順を取る。その際に、領域の大きさは可変であり、偽陽性率の水準を保ちつつ領域のサイズを可能な限り小さくしていくことが、Bayesian fine-mappingにおけるcredible setの推定と似た概念として捉えられ、因果的変異を推定するfine-mappingの目的を果たすことに繋がる(ここで領域と表現したが、変異の集合であればよく、ゲノム上で連続する領域である必要はない)。knockoffを利用したfine-mappingは発展途上であるが、今後の動向に注目されたい。

Box. 4.要約統計量と連鎖不平衡(LD)行列の利用

補足5に述べた通り、本稿で紹介するfine-mappingは基本的に要約統計量とLD行列に対し適用することが前提となる。即ち、X=(x1 x2 ... xm):m個のゲノム変異に関する情報(N×m行列)(xii 番目のゲノム変異に関するN人分の情報、長さNのベクトル)は実際には観測データとしては与えられず、代わりに、形質情報 yやサンプルサイズNの他には、個々の変異を線形モデルにフィットした際のz値のベクトル z ^ = ( z 1 ^ , z 2 ^ , .. , z m ^ ) T とLD行列RXT X/Nが与えられる。以下では、そうした要約統計量とLD行列からfine-mappingを実行する際の概要を述べる。

(有限サンプルでフィッティングした推定値であるため z ^ とハットが付加される。)

(ここでは、Xは各変異に関して平均0、分散1に標準化されたものを考える。)

(LD行列はゲノム全領域におけるそれを考慮すると巨大だが、通常LDはゲノム上のある程度近傍の変異間に存在する性質であることを考慮し分割したものを複数用意することでサイズを抑える)

(ただし、Box. 6に述べるABFに関してはLD行列が不要)

さて、通常のGWAS(個々の変異を変数とした線形回帰の繰り返し)における個々の変異の(因果的とは限らない)効果量b(長さmのベクトル)の推定値に関しては、以下のように要約統計量と関連付けられる:

各変異 i に関して、効果量の点推定 b i ^ y = x i b i ^ x i T y = x i T x i b i ^ x i T y = N b i ^ つまり、 b i ^ = x i T y / N 次に b i ^ の標準誤差(Standard Error=SE)は、分散(Variance)の平方なので、 Var ( b i ^ ) = Var ( x i T y / N ) = x i T Var ( y ) x i / N 2 = x i T x i / N 2 = N / N 2 = 1 / N SE ( b i ^ ) = Var ( b i ^ ) = 1 / N そしてz値の定義より、 z i ^ = b i ^ / SE ( b i ^ ) つまり、 z ^ = X T y / N 即ち、 z ^ Nを公開することは、XTyを公開することと見做せる。

同様に、統計的Fine-mappingのモデル y = + ϵ における因果的効果量ベクトルβとその推定量 β ^ に関しても、 y = X β ^ X T y = ( X T X ) β ^ = N R β ^ β ^ = R 1 X T y / N 即ちXを実際に入力とする必要はなく、上記のように転置行列をかけた等価な式を考慮し、 z ^ = X T y / N RXT X/Nが与えられれば実用上の計算が可能である。従って、主要な手法は主にそうして要約統計量(y z ^ 、サンプルサイズN)とLD行列(R)を入力とする形で実装されている。例として、SuSiEにおいては(XT X, XT y, yTy, N)の組やそれと等価な(R, z ^ , y, N)等の組は特にsufficient statisticsと呼ばれ、文字通り統計的fine-mappingを行うのに十分(sufficient)な統計量の組として明示されている。

以上の記述に関する詳細な議論(及び、 z ^ の項をより正確な推定に置き換える補正等、改善手法の提案と実装)は[78]に詳しい。

また、上記の通り誤差項はサンプルサイズ(N)に依ることになり、GWASや統計的fine-mappingにおいてサンプルサイズを増やすことの重要性が伺える。

実際には関連解析を行った集団そのものにおけるLD行列は、それ自体がシェアされないことも多い。その際にはRを、遺伝的背景が近いであろう集団で一般公開されているもので代替する(例:https://analysistools.cancer.gov/LDlink)。しかしながら、当然解析を行っている集団そのもの由来ではない情報で置き換えているため、[44]に述べられるように、fine-mappingの精度は一定度合い低下する。

Box. 5.Approximate Bayes Factorの計算

i 番目の変異に関するベイズファクター(BF)は、i番目の変異のみが因果的変異とするモデルMiのもとでGWAS統計量を観測する確率 p ( θ ^ | M i ) を、因果的変異が全く存在しないモデルM0のもとでの尤度 p ( θ ^ | M 0 ) で割った値として得られる。即ち、 BF i = p ( θ ^ | M i ) p ( θ ^ | M 0 ) であり、これは領域内の他の変異に関係なく、注目する変異の要約統計量さえ与えられれば計算することが出来る(つまり、LD行列すら不要)。

15, 16]に示されるように、実際には効果量の従う事前分布(正規分布でモデルされる)の分散Wと、それに事後分布の分散Viを足したものの比率 r i = W W + V i を用い、 ABF i = 1 r i exp ( Z i 2 r i 2 ) で近似可能であり、十分に大きいサンプルサイズにおいてはABFによる近似は正確である(可読性のため、ここでは[15, 16]で記述されるABFの逆数でABFを定義した)。ここで、Ziは変異 i の効果量の検定に関するz値で、関連が統計的有意であるほどABFは大きいことになる。効果量の推定の誤差に対応するViに関しても同様であり、ABFが真の効果量に加え、サンプルサイズや変異 i の頻度等の影響を反映することがわかる(例:十分に大きいサンプルサイズのもとでは、riは1に近づく)。

さて、モデルではどれか一つの変異が因果的変異であることを仮定しているので、i 番目の変異が因果的変異である確率PIPiは素直に PIP i = p ( θ ^ | M i ) j = 1 m p ( θ ^ | M j ) = p ( θ ^ | M i ) p ( θ ^ | M 0 ) j = 1 m p ( θ ^ | M j ) p ( θ ^ | M 0 ) = BF i j = 1 m BF j ABF i j = 1 m ABF j と計算できる。変異間のLD等の複雑な要素を考えずに、ABFの単純な計算を変異数 m回行うのみでPIPが計算可能であるため、高速な手法であることが実感出来る。ABFの導出は[16]、(直感的にも理解しやすいが)BFの計算が注目する変異以外のデータに依らないことの証明は[17]が詳しい。

Box. 6.FINEMAP algorithm概要

ゲノム情報と形質情報の間の関係をyϵと表現した際に、疎な仮定に従うfine-mappingにおいては、 β = γ b と表現され、因果的変異の配置を表すγにおける、数少ない0でない(1である)要素を探索することになる(⨀は要素積)。本文に示した通り、γの取りうる値は変異数 mに応じて指数関数的に増加するため、少数の因果的変異を仮定した場合でも、その数が3, 4, 5.. と増えていくと計算が困難になる。そこでFINEMAPにおいては、全ての配置を探索することなく、ある程度確率密度の大きい配置のみを効率的探索することで近似するアプローチを取る。即ち、γn)をn回目の探索において採用された配置とすると、初期化)γ(0)を初期化する(論文[24]中に記述はないが、例:全て0/ランダム)

以下を収束まで、或いは予め設定した上限回数まで繰り返し)

- 次の配置 γn+1)を選ぶ際に、

 Γγn)+1γn)における0である要素を一つ1に変更した配置の集合(即ち、因果的変異が一つ“増えた”配置の集合)

 Γγn)-1γn)における1である要素を一つ0に変更した配置の集合(即ち、因果的変異が一つ“減った”配置の集合)

 Γγn)±1γn)における0である要素を一つ1に変更し、1である要素を一つ0に変更した配置の集合(即ち、因果的変異を一組“交換”した配置の集合)

 のみに絞り、それぞれの配置を評価する(即ち、各γ∈{Γγn)+1|Γγn)-1|Γγn)±1}に関してpγ|X, y)を計算する)。

- 各pγ|X, y)に従う(正規化した)確率に基づくサンプリングにより次の配置 γn+1)を決定する。

- nn+1に更新。

の操作が行われる。この探索において、一度評価した配置はメモリ上に保持していくことで、同じ配置が複数回現れた際の計算時間を短縮している。また、通常は因果的変異の最大数を大きくない値(例:10)に絞るので、その上限に達した際にはΓγn)+1は空集合となる。

上記の確率的探索の中で評価された配置の集合をΓevalとする。ここで、2m通り全ての配置を許す集合 Γと比べると、限られた空間を探索しているため配置の数としては|Γeval|≪| Γ |であるが、確率の高い配置を優先する探索であるため、確率密度に関しては γ Γ eval p ( γ ) γ Γ p ( γ ) であることが期待される。即ち、Γevalの中で i 番目の変異が因果的変異であるとする配置の集合をΓeval, iと表記した際に、 PIP i = p ( γ i = 1 ) = γ Γ eval , i p ( γ | X , y ) γ Γ eval p ( γ | X , y ) と計算される(信用集合に関してはBox. 2と同様に計算可能)。

Box. 7.SuSiE algorithm概要

yϵと表現した際に、SuSiEモデルにおいては、効果量ベクトルβを、L個(Lは大きくない整数。例:高々10個)の“Single effect”ベクトルの足し合わせと見做す:

β = l = 1 L β l

その際、いわばβを構成する個々の要素であるβlに関しては、一つの因果的変異のみが作る効果であると仮定する:

β l = γ l b l γ l Multinomial ( 1 , π ) b l N ( 0 , σ 2 0 , l )

(つまり、γl は多項分布からの単一のサンプリングであるため、γl, iγli 番目の要素として、l に関してγl, i=1となる i は一つだけあり、それが l 個目の“Single effect”を作る因果的変異となる)

ここで、πは因果的変異の配置に関する事前分布であり、通常はm個の変異に関して同様の確率を与えている(即ち、 π = ( 1 m , 1 m , ) )。Box. 6.に述べるように、機能情報等を事前分布に反映させたい場合には、このπを適宜変更することとなる。

以上のモデルのもと、SuSiEでは以下に述べるような繰り返し計算が行われる:

初期化)β1β2= ... =(0, 0, …, 0)T

以下を収束まで繰り返し)

lを1からLまで動かし

- βlの効果を考慮しない際の残差 r l = y X l ' l β l ' を計算

- rlβlで回帰するモデルを考えβlの事後確率分布を更新(仮定によりβlにおいて非0であり1である要素はただ一つであるため、一変数の回帰問題をm回考えればよく、高速に実現可能)

Iterative Bayesian stepwise selection(IBSS)と呼ばれるこのプロセスに関して、各Single effect vectorが独立であると仮定し事後分布を計算する変分近似(variational approximation)の考え方がベースとなっていることや、要約統計量から実行可能である理論的背景が論文[26, 78]では述べられているが、より詳細な議論はここでは割愛する。

SuSiEモデルのもとで変異 i が因果的変異である確率PIPiは、「変異 i はどのsingle effectを作る変異でもない」の排反事象であるため、 PIP i = 1 l = 1 L { 1 p ( γ l , i = 1 ) } で計算される。また、信用集合に関しては、異なるsingle effectを区別し、各single effectに関して計算される。

ベイズ統計を利用し、サンプリングを繰り返す中でパラメタを更新していく手法(Bayesian variable selection in regression=BVSR)は統計的fine-mappingにおいてSuSiE以前から利用されていたが、既存のBVSRを利用するモデルに対するSuSiEの優位性として、開発者らは、

  • 1.BVSRにおいて主に用いられるマルコフ連鎖モンテカルロ法(MCMC)による探索と比べ、IBSSは計算が容易であり収束が早いこと

  • 2.(1より重要かもしれない点として、)Single effect毎に信用集合や効果量を定義、議論可能であるため、生物学的解釈がより容易であること

  • を挙げている。

Box. 8.EMSを用いたfunctionally-informed fine-mapping

筆者が[31]で実行したfunctionally-informed fine-mappingの概要を以下に示す。

  • 1)ヒト組織毎のmRNA発現量(とその個人差及び個人全ゲノムシーケンス情報)に関するデータベースであるGTEx[39, 79]を対象に、各組織で各変異に関して近傍(1Mb以内)遺伝子発現を形質として関連解析(即ち、expression quantitative trait loci=eQTL解析)を行う。そして、ゲノムワイド水準p<5e-8を満たす変異が少なくとも一つ存在する遺伝子のみを対象に要約統計量と変異の連鎖不平衡情報を用い、統計的fine-mappingを行い、PIPを推定する。

  • (以下のステップ2以降も全て、各組織で独立に行われる)

  • 2)十分にPIPが高い/低い各変異-遺伝子ペア i に関して教師ラベルyiを付加する: y i = 1 if PIP i 0.9 y i = 0 if PIP i 0.0001 (この際、PIP≤0.0001を満たす変異-遺伝子ペアは十分多いため、適度にダウンサンプリングを行う)

  • 3)各変異-遺伝子ペア i に関して、可能な限り有効と思われる機能情報(特徴量)を付加:X=(x1 x2 ... xi ...)T, xiは特徴量ベクトル

  • 4)y=(y1, y2, ..., yi, ...)をXから予測する学習器を作り、学習器を再びXに適用し、出力を確率スケールにしたものをEMSとして定義する。また、学習の際には自身の染色体上にある変異を除いたデータを用いることで過学習を避ける。

  • 5)ステップ1)と同様に、GTExのeQTL fine-mappingを試みるが、その際に、因果的変異の配置に関する事前分布を、通常の一様分布ではなく、4)で計算したEMSに従う分布とする(即ち、SuSiEにおけるγi~Multinomial(1, π)に関して、 π = ( 1 m , 1 m , .. ) ではなく、 π = ( EMS 1 , EMS 2 , .. ) と見做すような近似計算を行う)ことで、機能情報を反映させたfine-mappingを行う。

ステップ1)、2)を始め、非自明な閾値による二値化が伴う点や、組織毎の相関を考慮せず独立に行なっている点を含み、手法の改善の余地が大きいことは言うまでもない。一方、例えば新たな学習データが現れた際にはステップ1)のみを更新し、新規に有効な特徴量(例:ゲノムの三次元構造等の情報)が得られた際にはステップ3)のみを強化すればよく、新規に有効な学習器(例:Transformer)を試したい場合はステップ4)のみを強化すれば良いという具合に、新規の知見が次々と出てくる中でモジュール別に拡張可能であるというのが本フレームワークの最大の強みであると考えられる。

例えば[31]の時点では、yi=1となる変異-遺伝子ペアの数が血液では1,700程度存在するのに対し、腎臓では100未満であり、結果として腎臓でのEMSによる予測能は血液と比べ低く(Area Under the Receiver Operating Characteristic=AUROCがそれぞれ0.96以上 vs 0.90未満)、新規に同定された因果的変異の数も限られた(1,000以上 vs 100未満)。また、肝臓では、yi=1となる変異-遺伝子ペアの数は500未満であるにも関わらず、同様のペア数が1,000近く存在する脾臓と比べて、同等の予測能(共にAUROC=0.95程度)と、より多くの新規因果的変異の同定(300程度 vs 100程度)が見られた。前者は教師データの拡充の重要性を、後者は有効な特徴量の拡充の重要性を示唆する(肝臓由来細胞での機能ゲノミクスデータは多く存在するが、脾臓由来細胞でのそれは多くないため)。一細胞レベルでのRNA-seq、ATAC-seq等の発展による多様な細胞種での機能ゲノミクスデータや、新規機械学習手法を柔軟に取り組んでいくことが今後重要になるだろう。

謝辞

東京大学大学院医学系研究科遺伝情報学教室岡田随象教授、教室員をはじめ、日頃の有意義な議論とこの度の執筆の機会を下さった方々に深く感謝いたします。

補足

補足1.

GWASの概念及び応用に関しては、本primer seriesの一つである[3]が日本語総説としては特に網羅的で質が高い。

補足2.

同一個人の同一染色体、同一ハプロタイプ上に存在する変異のペアが数世代を経てそれぞれ単体で観測されるには、原則減数分裂時に二つの変異の間の位置で組み替えが生じる必要がある。その確率はおおよそ変異間の距離に比例するため、近傍変異のペアは集団中で共に存在する確率が高い(つまり連鎖の度合いが大きい=連鎖不平衡にある)。厳密には組み換えの生じる確率はゲノム上で一定ではないため、塩基数で測る物理的距離(base pair=bp)における近傍というよりは、組み替え確率を基準にした距離(centimorgan=cM)で定義される近傍であることに留意する。また、連鎖の度合いを表す指標としてGWASの文脈で広く用いられる変異間の相関行列(R)は、上記に加え、個々の変異自体の頻度にも依る。

補足3.

本稿は筆者らの過去の英文総説[12]の前半部分とある程度の内容の重複が認められるが、[12]では後半にかけてfine-mappingの適用事例へと論説を進めるのに対し、本稿ではより基礎的な手法の詳細に踏み込む点で異なる。fine-mappingの実際の適用例に関してはその他[11]等が詳しい。

補足4.

[機能ゲノミクス情報を活用したfine-mapping]項で述べたように、エピゲノム等の既存の生物学的知見を事前分布に組み込む形で取り入れやすいのもBayesian fine-mappingの長所として挙げられる。また、各変異に関して因果的効果の有無を区別するモデリングは、LASSOやElastic net等の疎なモデルを利用した解析[68, 69, 70]に通ずる部分もあるが、それらは往々にしてゲノム変異からの形質の予測能の最大化を目的とするのに対し、fine-mappingにおいては、機能的変異を同定し、生物学的な理解を深める方向への発展をより意識する点で微妙に区別される。

補足5.

本稿で紹介するfine-mappingは基本的に要約統計量(とLD行列)に対し適用することが前提となる(Box. 4)。個別のゲノムデータが得られる場合には、最も因果的変異らしい変異を共変量に組み込み再度GWASを行い、得られた結果から次の因果的変異を推定し、再び共変量に組み込み..という繰り返し手法が理論上は可能となるが、実際にはそのような手法(conditional iterative approach)は計算量が大きくなるのに加え、個別のゲノムデータが必要という要請自体がバイオバンク連携の時代においてネックになるため、発展可能性は大きくないと考えられる[71, 72]。また、本文に述べたCOJO-ABFは、そのような繰り返し手法を、個別のゲノムデータ無しで、LD行列(サンプル間の、或いは1,000 Genomes等公開データのもの)を利用して近似する手法として解釈可能である。

補足6.

MPRAと類似する手法として、STARR-seq[73]や転写因子を基盤としたSELEX[74]等が挙げられる。STARR-seqにおいては、レポーターの上流ではなく下流にオリゴを埋め込むため、ゲノムで生じるような転写開始地点上流のプロモーター配列による制御は再現しにくいと考えられるが、スループットの高さが長所となる。

補足7.

MPRAの手法的限界や、制御効果のコンテキスト特異性を無視していることによる偽陰性の可能性も存在するため正確かつ定量的な議論は容易ではないが、現状の疎なモデリングが実際と大きく乖離していないことを支持する結果となっている。

References
著者略歴

王 青波
2016年東京大学理学部生物情報科学科卒業。2021年5月、ハーバード大学にてPh.D.取得(Biomedical Informatics)。同年6月より大阪大学大学院医学系研究科准教授を経て、2023年4月より東京大学大学院医学系研究科准教授。大規模データを活用したヒトゲノム変異の精緻な解釈に関する研究を進める。

 
© 2023 Japan Society for Bioinformatics

This article is licensed under a Creative Commons [Attribution-NonCommercial-ShareAlike 4.0 International] license.
https://creativecommons.org/licenses/by-nc-sa/4.0/
feedback
Top