複数の表現型を用いた人類遺伝統計学の大規模情報解析

谷川 洋介

doi:10.11234/jsbibr.2021.4

Abstract

ヒトゲノム計画やその後の計測技術の進展にともない、多くの遺伝情報の取得・解析が容易になった。さらに、電子カルテやウェアラブルテクノロジー、大規模コホート研究の拡大によって、より多くの表現型のデータも得られるようになった。これら、遺伝型・表現型の両方におけるデータの拡大によって、より幅広い研究課題に取り組む絶好の機会が訪れている。人類遺伝統計学は、このようなデータを活用して、疾患などヒトの諸形質に影響を与える遺伝的変異をより深く理解するための強力なアプローチとなりうる。本稿では、ゲノムワイド相関解析やフェノムワイド相関解析、ポリジェニック・リスク・スコアなど、代表的な解析手法を取り上げ、複数の表現型の情報を考慮した遺伝情報解析など、近年の話題についても紹介する。

人類遺伝学における遺伝型・表現型データの拡大

遺伝学とは、表現型の多様性とその遺伝基盤を考える学問である。本年で、ヒトゲノム計画によるドラフトゲノム公開［1, 2］から20年となるが、その間に塩基配列決定技術は飛躍的な進歩をとげた。とくに、次世代シーケンサー技術の成熟［3］により、DNAシーケンシングのコストが100万分の1以下に低下した。また、HapMap project［4］や1000 Genomes Project［5］などにより、ヒトの集団内にどのような遺伝的多様性が存在するかが解明され、ありふれた遺伝的変異（common variants）、とくに一塩基多型（single nucleotide polymorphisms, SNPs）、を調べるマイクロアレイが用いられるようになった。これら、計測技術の進歩により、多くのDNAサンプルの遺伝的多様性を測定することが可能になった。

遺伝的多様性の計測技術の進歩とあわせて、表現型の計測技術も大きな変化をとげた。電子カルテが多くの病院に導入され、様々な疾患に関する診断結果、血球検査・尿検査などのバイオマーカーに関する情報、放射線科医・病理医により撮像された画像、薬剤の処方箋などの情報が集められている［6］。さらに、ウェアラブルデバイスにより記録された運動量のように、病院の外においても、健康に関する情報の収集・集積が行われている［7］。プライバシー保護や、データの所有権、異なるシステム間での情報交換を行うための基盤づくり（interoperability）など、解決されるべき重要な問題は多くあるものの、今後も表現型データは拡大を続けることと思われる。

さらに、いくつものリスク要因をもちうる複雑形質（complex traits）に影響を与える環境要因や遺伝的な要因を調べるため、世界中でいくつもの大規模コホート型研究が行われるようになった［8, 9, 10］。それぞれの研究デザインには違いがみられるものの、おおむね数十万人規模の大きさで、マイクロアレイやシーケンシングを用いた遺伝的変異の計測と、電子カルテ情報や質問票などによる表現型情報の収集などを組み込んだスタディであることが多い。日本では、バイオバンクジャパン［11］や東北メディカルメガバンク［12］の実施例がよく知られている。諸外国では、英国のUK Biobank［10, 13, 14］、フィンランドのFinnGen［15］、アメリカのMillion Veteran Program［16］やAll of Us Research Program［17］などが知られている。

このように、人類遺伝学の研究に必要なデータが、遺伝型・表現型の両方において多くのサンプルから集められるようになったことで、以前ではサンプルサイズの限界などからアプローチが困難であった問題を研究する機会が訪れているといえよう。

ゲノムワイド相関解析（GWAS）

表現型の多様性に影響を与える遺伝的変異を探索する手法には、家系情報を用いた連鎖解析や、ゲノムワイド相関解析（genome-wide association studies, GWAS）がある¹。とくに、複雑形質（complex traits）の解析には、統計的検出力（statistical power）の観点から、ゲノム上の連鎖不平衡ブロックの多くをカバーするように設計された遺伝的マーカーに対して遺伝型を調べ、ゲノムワイド相関解析を行うことが提唱され、2000年代から実施されている［18, 19, 20, 21］。ゲノムワイド相関解析では、解析に用いられる遺伝的変異それぞれについて、特定の形質に対する線形回帰モデルを考え、回帰分析を行う²。

式（1） y ~ age + sex + genotype PCs + G {y "~" "age" +"sex" +"genotype PCs" +G}

ここで、yは解析の対象としたい量的形質、Gはひとつの遺伝的変異となる。回帰分析に年齢（age）や性別（sex）などの共変量（covariates）を組みこむことで、これらに交絡するような相関を検出することを避けることが一般的である。スタディデザインによっては、年齢の二乗項（age²）や、ボディマス指数（body mass index, BMI）などを共変量に組み込むこともある。Genotype PCsというのは、遺伝的変異データの行列（個人×遺伝的変異のサイズをもつ）に主成分分析（principal component analysis, PCA）を適用したとき各個人について得られる主成分得点のことで［22］、集団構造（population structure）をコントロールするための項としてよく用いられる［23］。もちろん、これらの共変量を組み込むだけで、品質の高い相関解析を実施できるというわけではなく、遺伝型データや表現型データのクオリティ・コントロールも重要である［24］。回帰分析を行うことで、遺伝的変異Gに対する効果量（β）の推定値（ β ^ { widehat β} ）やその標準誤差（ SE ( β ^ ) {SE \( { widehat β} \)} ）、p値などの要約統計量（summary statistics）が得られる³（図1）。GWASでは多くの遺伝的変異を解析するため、多重検定補正を行い、p＜5×10⁻⁸をゲノムワイド有意水準とするのが一般的である。GWASに用いられるサンプルサイズが限られていたころは、このゲノムワイド有意水準に達する、推定効果量の小さい相関を発見することは困難であったが、先に述べた計測技術の進展により多くのサンプルを対象とした研究が推進されることになり、身長・肥満・糖尿病など多くの複雑形質において、ゲノムワイド有意水準に達する多くの相関が同定された［25, 26, 27］。遺伝的な影響を与える遺伝的変異・座位の種類や数は、表現型によって異なり、多様な表現型それぞれについて遺伝的基盤を解明する研究が続けられている。ひとつの形質に複数の遺伝子座が影響を与えることを、ポリジェニシティ（polygenicity）とよぶ［28, 29］。

図１ゲノムワイド相関解析（genome-wide association studies）

UK Biobankのデータを用いて調べられた、ボディマス指数（Body mass index）に関するゲノムワイド相関解析（genome-wide association studies）の結果をマンハッタン・プロット（Manhattan plot）として示した。様々な遺伝的変異（x軸）に対して独立に回帰分析を行った結果の−log₁₀（P）値（y軸）が示されている。インタラクティブなプロットを、Global Biobank Engine［37］のウェブサイト（https://gbe.stanford.edu/RIVAS_HG19/coding/INI21001) で見ることができる。

式（1）では、量的形質を対象とした線形回帰式を示したが、疾患のように2値（疾患［ケース］またはコントロール）をとる表現型については、線形回帰のかわりにロジスティック回帰を適用すればよい。これらに加え、一般化線形モデルの枠組みで、生存時間解析のCox's proportional hazard model［30］を用いて、疾患の発症時期に対してゲノムワイド相関解析を用いる試みも行われている［31, 32, 33］。また、近親者（related individuals）を含めて相関解析を行う場合は、線形混合モデル（linear mixed model）を用いることが一般的である［34］。さらに、複数のスタディで解析されたGWASの結果を組み合わせる、メタ・アナリシスの手法も開発され多くの研究に応用されている［25, 26, 27, 35, 36］。GWASの結果は、インタラクティブなデータブラウザとして提供されているほか［37, 38］、GWAS catalogというデータベースに集められており［39, 40］、Open Targets Genetics［41］などのプラットフォームから利用できるようになっている。なお、近年、GWASなど遺伝情報解析に用いられるサンプルの多様性の欠如について問題提起がなされており、ヨーロッパ系以外のサンプルを解析に用いることへの関心が高まっている［42, 43, 44］。

これらは、一般化線形モデルを用いた回帰分析という比較的シンプルな統計解析手法の応用であるが、サンプルサイズの増加などに伴う計算量の増加から、スパース性をうまく利用した新しいデータフォーマットの提案・より効率的な計算法の実装・近似法の導入など、近年も新規の手法が提案され続けている［45, 46］。GWASのように10年以上用いられているような基盤的な解析法の改良は、多くの研究にインパクトをもたらす魅力があることを記しておきたい。

表現型データの取得（phenotyping）

遺伝的情報の取得とクオリティ・コントロールの手法が標準化されるなかで、表現型データの取得（phenotyping）の重要性が相対的に高まっていると考えられる。たとえば、電子カルテ・医療情報から疾患の診断情報を網羅的に取得するような手法が開発され、データ欠損やバイアスを検出・補正するようなデータ・モデリング研究が行われている［47］。GWASでは、一つの疾患を選び、ゲノム全体のSNPsなどの遺伝的変異に対して相関解析を行うが、一つの遺伝的変異に注目し、観測された表現型全体（phenome）に対して網羅的な相関解析を行う、Phenome-wide association studies（PheWAS）というアプローチも用いられている（図2）［48］。バイオバンクなど、多くの表現型と遺伝情報が両方計測されているようなコホートにおいて、GWASとPheWASの両方の解析が行われることも珍しくなくなってきた。PheWASが進行するにつれて、一つの遺伝子座が複数の形質に影響を与える、多相遺伝（pleiotropy）という様子が多く観察されるようになった［49］。

図２フェノムワイド相関解析（Phenome-wide association studies）

UK Biobankのデータを用いて調べられた、GPR151遺伝子上の変異（rs114285050) と様々な表現型（phenotype, x軸）との間のフェノムワイド相関解析の結果（p＜10⁻³）を、相関解析によって得られた−log₁₀（P）値（上段）と、推定された効果量（下段）として示した。表現型は、カテゴリーによって色分けされている。プロットは、Global Biobank Engine（GBE）［37］の出力をもとに作成された。インタラクティブなプロットを、GBEのウェブサイト（https://gbe.stanford.edu/RIVAS_HG19/variant/5-145895394-G-A）で見ることができる。

表現型データは様々なデータソースから取得できる。発症年齢が遅い疾患の遺伝基盤を探索するには、研究参加者のスタディ参加時点での疾患の状態を用いてGWASを行うかわりに、疾患の家族歴を将来発症するかもしれない疾患状態の代理変数として用いたほうが、より多くのケースを得られて検出力が高まるかもしれない［50, 51］。また、一人の表現型の情報は、電子カルテに加え、質問票などにも含まれているかもしれない［13, 14］。複数のデータソースには、ランダムではない情報欠損などが含まれているため、異なるデータソース間の一致度を表現型のレイヤーで直接比較することは困難である。我々も、英国のUK Biobankのデータを用いてこのようなデジタル・フェノタイピング（digital phenotyping）の問題を考え、病院内の疾患診断コードや質問表、家族歴など、それぞれの情報源を用いてGWASを行い、その結果を比較することで一致度を評価できること、また複数の情報源を組み合わせることで検出力を向上できることなどを報告した［52］。複数の情報源からの表現型の取得、クオリティ・コントロール、その組み合わせの方法論などについては、データ取得がどのように行われているかなどの状況を加味して、スタディごとに検討を行う価値があると考えられる。

今後、より多くのクリニカルサンプルから遺伝的情報が取得されるにつれて、バイオインフォマティクスとクリニカルインフォマティクスの両方の分野の協力による研究が進展すると考えられる。

希少な遺伝的変異に対する相関解析

GWASやPheWASにおいて検定にかけられる（遺伝型、表現型）ペアの数が増えることで、多重検定の補正を適切に行わなければいけなくなる。一般に、遺伝的変異の数（～10⁶）に対して表現型の数は少ない（～10³）こと、バイオバンクなどの大規模コホートではサンプルサイズが十分に大きいことを考えると、ありふれた疾患（common disease）に対するありふれた遺伝的変異（common variant）の相関を検定している場合には、統計的検出力（statistical power）は、さほど大きな問題とならないかもしれない。

しかし、希少変異（rare variant）の解析は困難で、統計的検出力の問題が生じる［53, 54］。同一遺伝子上の希少変異に観測される相関の効果をまとめて、burden test［55, 56］（効果の和に注目する検定）やvariance-component test［57, 58］（効果の分散に注目する検定）を行う方法、これらの組み合わせる方法［59, 60］など、様々なアプローチが提案されている［53, 54］。ボトルネック効果（population bottleneck）など、ユニークな歴史をたどった創始者集団（founder population）では希少変異がエンリッチしていて、他の集団では検出が難しいような遺伝的相関を検出できることもある［61］。また、複数の遺伝的変異、複数の表現型、複数のスタディの情報をベイズ統計の枠組みで組み合わせるような方法も、近年提案されている［62］。今後、大規模集団において得られたエクソームシーケンシングや全ゲノムシーケンシングの解析が進むなかで、様々なインフォマティクス手法の開発がさらに進展することが期待される。

GWASの結果を活用した二次解析

GWASによって得られる要約統計量（summary statistics）は、それ自体が疾患や非疾患形質を研究するための有力な手段となりうるが、さらなる下流解析の入力として用いられることも多い（図3）［63］。先に紹介した、メタ・アナリシスによって、複数のコホートでのGWAS解析からロバストな相関を探索する手法や、Fine-mappingという解析手法によって連鎖している遺伝的変異の中から原因遺伝的変異を同定する試み［64］は、近年よく用いられている。また、GWASで得られたゲノムワイド相関と、遺伝子アノテーションモデルや大規模エピジェネティクデータ、あるいは発現データやオントロジーなどに対してエンリッチメント解析を行う試みもなされてきた［65, 66, 67, 68］。このようなエンリッチメント解析の難点は、非コード領域上の相関をどのように既存の機能データに結びつけるかという方法論と、遺伝的変異間の連鎖の構造の取り扱いであった。少なくとも後者の難点は、LD score regression（LDSC）という手法の開発など［69, 70, 71］、解決の方法が示されつつあると考えることができるであろう。

図３人類遺伝学における大規模情報解析

（A）大規模集団からの遺伝型・表現型の取得。マイクロアレイやシーケンシング技術を用いて、数十万人規模の遺伝型データを取得できるようになった。表現型は、電子カルテや質問票、個人のウェアラブルデバイスなどから取得される運動量記録など、多種多様な情報源から取得される。

（B）ゲノムワイド相関解析（genome-wide association studies）では、ある一つの表現型と、ゲノム上の各遺伝的変異との相関を、回帰分析によって検定する。解析結果は要約統計量（summary statistics）としてまとめられ、マンハッタン・プロット（Manhattan plot）などとして図示されることが一般的である（図1）。

（C）ポリジェニック・リスク・スコアによる疾患リスクや表現型の予測。ベイジアン多変量解析や、正則化項つきの多変量回帰モデルによって、ポリジェニック予測モデルを構築できる。モデルにより各個人に対して計算される値をポリジェニック・リスク・スコアとよぶ。線形関数を用いることが一般的である。

（D）ゲノムワイド相関解析から得られる要約統計量やポリジェニック予測モデルの回帰係数は、さらなる二次解析に利用される。

さらに、LDSCなどの手法を用いて、GWASの要約統計量から遺伝率［72］や遺伝的相関［73］といった遺伝学におけるパラメータ推定を行うことも可能となった［69, 70, 71］（Box 1）。遺伝率（heritability）とは、遺伝型（の加法的な効果）で説明できる表現型の分散が表現型全体の分散に占める割合として定義される量で、集団内の表現型のばらつきに対する遺伝的な効果を定量したものである［72］。「広義の遺伝率（H²）」と加法的な効果に限定した「狭義の遺伝率（h²）」という異なる概念が存在するほか、数多くの誤謬が知られているため、詳しくは専門誌のレビューなどを参照していただきたい［72］。一方、遺伝的相関（genetic correlation, r_g）とは、2つの形質に影響を与える遺伝的な効果が、どの程度共通しているかを定量したものである［73］。2つの形質の間で共有される多相遺伝（pleiotropy）の程度をゲノム全体で調べた結果を表す量と考えるとわかりやすいかもしれない。遺伝率や、遺伝的相関は、実際に観測することは困難で、統計モデルによって推定される値であることに注意してほしい。

遺伝的相関を調べることで、複数の複雑形質が共通の遺伝的基盤を持っていることが明らかになるなど、疾患やその他の形質に関する理解が深まることがある［73］。遺伝的相関は、ゲノム全体における共通の遺伝相関の程度を1つの数値としてまとめたものであるので、実際にどのような遺伝的領域が共通した効果を持つのかは明らかではない。この疑問に答えるため、local genetic correlationといった、特定のゲノム領域のみについて遺伝的相関（genetic correlation）を評価するような手法が開発された［74］。我々も、同様の問題に対する異なるアプローチとして、Decomposition of Genetic Associations（DeGAs）という手法を提案した［75］。DeGAsでは、複数の形質に共通する、直接は観測されていない遺伝基盤のモジュールが存在すると考え、これをGWASとPheWASによって得られる要約統計量の行列の特異ベクトル・隠れ要素（latent components）として抽出する。論文では、隠れ要素を複雑形質のGWAS結果の解釈や実験的検証のための候補遺伝子探索に活用する方法を示した。このような遺伝的基盤の分解（decomposition）の手法は、次項で述べるようなポリジェニック・リスク・スコアの解釈可能性を向上させるために用いられたり［76］、ベイジアン縮小推定を用いた方法に発展させられたり［77］、複数コホートのメタ・アナリシス結果の解析に応用されたりしている［78］。今後は、メンデリアン・ランダマイゼーション（Mendelian randomization）といった、因果推論の枠組みとあわせて考えることで、複雑形質の原因となる遺伝的基盤の同定などの進展が期待される。

ポリジェニック・リスク・スコア（PRS）

先に述べたGWASは、疾患やその他の表現型に相関を示す遺伝的変異の探索に用いられてきた。GWASに用いられるサンプルサイズが増加するにしたがって、これらのGWASの結果から、個人の遺伝的な疾患リスクを予測するためのリスクスコアを計算することへの関心が高まった。多くの遺伝子座の効果により、複雑な遺伝形質を予測する手法として、ポリジェニック・リスク・スコア（polygenic risk score, PRS）と呼ばれる方法が提案されている［28, 79, 80, 81, 82, 83］。PRSモデルは、線形モデルとして表されることが多い。

式（2） PRS i = ∑ j β ^ j X i , j {"PRS"_i ={ sum csub j {{ widehat β}_j X_{i , j}}}}

ここで、PRS_iとは、PRSモデルにより予測される個人iに関するスコア、β_jは多変量回帰分析モデルにおける効果量（真の値はわからないので、推定値 β ^ j { widehat β}_j が用いられる）、X_i,jは個人iの遺伝的変異jにおけるリスクアレルの数（0、1、2、あるいは欠損値［NA］のどれか）を表す行列である。欠損値の取り扱いは様々で、遺伝型インピュテーション（genotype imputation）により補完されることもある［83］。GWASにおいては、それぞれの遺伝的変異を独立に取り扱い回帰と検定を行うため、GWASで有意水準を超えた遺伝的変異とその単変量解析での推定効果量を、遺伝的変異同士の連鎖構造を考慮せずにそのまま使うことは難しいことには注意が必要となる。

このようなPRSモデリングは、古くから農業分野での育種などにも使われてきた［84］。人類遺伝学においては、サンプルサイズの増加や変数選択・効果量推定の手法開発の進展により、モデルの予測性能が向上して近年注目を集めている［81, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94］。ポリジェニック・リスク・スコアを用いて複数の遺伝的変異の効果を組み合わせることで、集団の中から、遺伝的要因により疾患リスクが平均よりも高くなっている人を同定することができる。モデルの予測性能の向上により、単一遺伝子疾患に関する保因者のスクリーニングを行うように、ポリジェニック・リスク・スコアを用いて複雑形質をスクリーニングすることへの期待が寄せられていたり［88］、従来から単一遺伝子疾患として知られていた疾患にも、ポリジェニックなリスク成分が存在することが報告されていたりしている［95］。GWASと同様に、PRSモデル構築に用いられるサンプルには多様性が欠如していることが指摘されており、トレーニングに使われた集団以外へ用いられた場合に精度が落ちる点には注意が必要である［42, 43, 96, 97］。

PRSモデリングは、高次元なスパースデータを用いた回帰分析の問題とも考えられるため、統計・機械学習の方法の応用や手法開発も行われている。たとえば、ベイジアン多変量解析の枠組みで、GWASやそのメタ・アナリシスから得られる要約統計量と遺伝的変異の連鎖不平衡（linkage disequilibrium, LD）の強さを表したLD matrixを用いて、ベイジアン線形モデルを学習する手法などが提案されている［90］。レファレンスに用いられるLD matrixを縮小（shrink）させることで、スパースなLD matrixを構築し利用する手法も提案されている［87, 90, 98］。また、LDではなく特徴量のsparsityを仮定するpenalized regression modelの枠組みで、Lasso (L1 penalized) regression、Ridge (L2 penalized) regression、Elastic netを用いる方法も提案されている［91］。このような正則化項つきの回帰モデルをフィットするには、通常、個人レベルのデータをメモリに読み込むことが必要となる。しかし、バイオバンクスケールの大規模データ（n＞300,000、p＞500,000）を読み込むのは、困難なこともある。幸いにもLasso regressionの場合は、変数選択（feature selection）を効率的に行うためのスクリーニング・ルールが研究されており、我々も統計の専門家との共同研究を通じて“strong rule”［99］を応用したBatch Screening Iterative Lasso（BASIL）という手法を提案し、R snpnetパッケージとして実装した［91］。また、遺伝的変異データのスパース性を活用してメモリ使用量を削減する取り組みも行っている［94］。

先の遺伝的相関のところでみたように、複数の形質が共通の遺伝基盤を持つ場合がある。このような場合は、ポリジェニック・リスク・スコアのような予測モデルの枠組みでも、複数の形質の情報を考慮した解析を行うことが有効であろう。我々は、血液や尿中のバイオマーカーの包括的な遺伝的解析のなかで、これらのバイオマーカーに対して構築されたポリジェニック・リスク・スコアの予測モデルを、疾患に対して構築されたポリジェニック・リスク・スコアの予測モデルと線形に組み合わせることで、疾患の予測精度が向上する例をいくつか示した［100］。これは、精度のよいポリジェニック予測モデルの開発には、サンプルサイズの増加と、複数形質を考慮した解析が、相互補完的に寄与できることを示唆している。また、先に述べた、Batch Screening Iterative Lasso（BASIL）というような正則化つき多変量回帰を複数形質の状況に拡張した、Sparse reduced rank regression（SRRR）という手法を、統計の専門家との共同研究により開発した［101］。SRRRのモデルは、L1正則化項によるスパース性に加えて、複数の遺伝的変異から複数の表現型への回帰係数をあらわす行列のランクに制約をつけるため、DeGAs［75］などに見られるようなdecompositionの手法のmultivariate-multi-responseへの拡張にもなっている。Batch Screening Iterative Lasso（BASIL）［91］やSparse reduced rank regression（SRRR）［101］の手法は、生存時間解析のモデルにも拡張され、疾患の発症時期に関わるポリジェニック・リスク・モデリングにも活用されはじめている［92, 102］。

ここまでの、ポリジェニック・リスク・スコアの手法の紹介では、すべて線形モデルを用いたものを取り上げた。複数の遺伝子座同士の交絡作用や、各座位における加法的ではない効果などは、どのように扱えばよいのだろうか。2型糖尿病の遺伝基盤では、遺伝子座同士の交絡作用は見られなかったというような研究はあるものの［103］、これが他の多くの複雑形質にも見られる特徴なのかは未だによくわかっていない。データと計算資源の増加に注目し、線形よりも表現力が高いモデルを用いて、ポリジェニック・リスク・スコアを構築するような試みは行われるであろう。このようなモデルの評価においては、トレーニングに使われなかったコホート（とくに異なる祖先グループに属する人々からなるコホート）においても、予測精度の向上が見られるかを調べることが重要になるのではないかと予想する。

まとめ

本稿では、人類遺伝統計学の大規模情報解析について、代表的な手法と近年の進展についてとりあげた。シーケンシング技術の進展による遺伝的な情報爆発に加え、表現型のデータの蓄積が進んでいること、これにより人類遺伝学の様々な問題に取り組むことが可能になっていることを紹介した。遺伝型・表現型の両方のデータをもとに、ゲノムワイド相関解析（GWAS）やフェノムワイド相関解析（PheWAS）といった、単変量回帰分析が行われていること、それらの結果が二次解析に用いられていることを述べた。また、解析対象のサンプルサイズの増加にともなって、複数の表現型や遺伝的変異の間の相関構造を活用した、多変量解析の応用例が、ポリジェニック・リスク・スコア（polygenic risk score）などで盛んに活用されていることを示した。

今後は、バイオインフォマティクスや人類遺伝学に加え、クリニカルインフォマティクスや高次元統計学などの関連分野の交流により、研究分野のさらなる発展が期待される。筆者の個人的な見解では、次にあげるような課題の研究が（引き続き）重要となるであろう（図3）。

・網羅的な表現型情報の取得・表現のためのデータ基盤の構築。とくに、時系列クリニカルデータの継続的な取得と活用、あるいは表現型データの意味論（semantics）をオントロジーなどにより標準化する試みは重要な役割を果たすだろう。また、多様な表現型データのデータソースやスタディデザインごとの個別の事情を鑑みた、丁寧なクオリティ・コントロールも引き続き重要となると考えられる。
・大規模データを活用した、ゲノムワイド・フェノムワイド相関解析の実施と、データ共有。とくに、ヨーロッパ系以外のサンプルを用いた解析や、祖先グループが異なる集団でもロバストに再現されるゲノムワイド相関の同定、さらにはエクソーム・全ゲノムシーケンシングのデータなどのスパース性を活用するような計算手法の開発は、大きなインパクトをもたらすだろう。
・GWAS結果や、ポリジェニック・リスク・モデルの回帰係数など、要約統計量を入力としてとる二次解析の手法開発と応用。要約統計量には個人レベルの情報が含まれないため、個人情報漏洩のリスクは比較的少なく、また、サンプルサイズが増加しても要約統計量のデータサイズは増加しない。遺伝的情報と表現型情報のデータサイズが拡大を続けるなか、要約統計量を入力とした計算手法の開発は、スケーラブルな解析手法を開発するための現実的な解決策のひとつといえるだろう。

バイオインフォマティクスや関連分野の研究者の参入による、さらなる研究の進展や分野の発展を願って、本稿の結びとしたい。

謝辞

王青波氏、太田力文氏からは、ご多忙のなか原稿に目を通していただき、内容や表現に関する貴重なアドバイスを頂いた。ここに深謝の意を表する。もちろん、内容に誤りや不適切な点があれば、すべて筆者の責にあるのは言うまでもない。また、筆者は公益財団法人船井情報科学振興財団による海外留学奨学金と、Stanford University School of Medicineによりサポートを受けた。ここに深謝の意を表する。なお、本稿に書かれている内容は、筆者の見解によるもので、これらの資金提供者は、掲載されている内容や、投稿・出版の可否に影響を与えていない。

脚注

1　GWASは「ゲノムワイド関連解析」として訳されることが一般的である。GWASで調べられているのは、表現型と遺伝的変異の統計的な相関にほかならず、因果関係などその他の関係との混同を避けるため、本稿では「ゲノムワイド相関解析」の訳語を用いることとした。

2　式（1）には、R言語などに見られる記法を用いた。これは、次の式のように書き換えることもできる。

y i = y 0 + β age × age i + β sex × sex i + ∑ k β PC ( k ) × PC ( k ) i + β G × G i + ε i

ここで、iは個人iに関する量であることを示す添字、y₀は定数項、βは式（1）の右辺にある説明変数（独立変数）それぞれに関する効果量、そしてε_iは誤差項である。

3　回帰分析を行うと、式（1）の右辺に含まれるそれぞれの説明変数（独立変数）について効果量の推定値・標準誤差・p値などの要約統計量が得られる。GWASを実施する際には、遺伝的変異Gに対する要約統計量に関心があるため、 β G ^ を β ^ と表記するなど簡略化した記法を用いた。

References

著者略歴

谷川洋介
2016年東京大学理学部生物情報科学科卒業。スタンフォード大学医学部バイオメディカル・データサイエンス学科博士候補生。統計遺伝学や大規模ゲノミクスの研究を行っている。
個人ホームページ：https://yosuketanigawa.com/

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）