ゲノムの違いを診断や治療方針決定に活用するゲノム医療が臨床に実装され、身近なものになっている。ゲノム医療では、ゲノム解析で検出されるゲノムの違いに対し、臨床的な解釈を行うことが重要となる。この解釈にはゲノムデータベースが活用されている。一方、これまでに蓄積されているゲノムデータには民族集団の偏りがあることが指摘されており、様々な地域でゲノムデータの多様性を高めるための取り組みが進められている。本稿では、ゲノム医療の背景と解析の流れ、検出されるバリアントをどのように解釈し医療に応用していくのについて概説するとともに、日本におけるゲノム医療促進のための取り組みについて紹介する。
医学において遺伝学の役割が最初に認識されたのは1世紀以上前のことであり、精密医療の父とも言われる英国の医師 Archibald Garrodたちがメンデルの遺伝法則を用いることで家系内の疾患再発率を説明できることに気づいたことが始まりであると言われている[1]。その後、遺伝医学は分子生物学の発展とともに発展してきたが、特にゲノム配列決定技術による貢献は非常に大きい。1990年に開始されたヒトゲノム計画(Human Genome Project; HGP)は、2003年にヒトの全DNA配列を発表した[2]。ヒトの基準となる参照配列(Reference sequence)ができたことで、個人間の詳細な違いについて議論できるようになった。ヒトのゲノムは約30億塩基対で構成されているが、個人間では平均して約0.1%(300万塩基)が異なると言われている。この違いに人の個性や病気のかかりやすさといった謎が隠されている。
ゲノムにおける違いをバリアント(variant)という。バリアントはその変化が生じたタイミングによって区別する必要がある。親の精子や卵子などの生殖細胞(germline-cell)から受け継がれ人が生まれながらに持っているバリアントは「生殖細胞系列バリアント」と呼ばれる。一方、受精後に体細胞(somatic-cell)に後天的に生じるバリアントを「体細胞バリアント」という。生殖細胞系列バリアントは、すべての細胞のゲノムに引き継がれる。一方、体細胞バリアントはすべての体細胞で共有されるわけではなく、生まれながらのゲノム配列を有する体細胞とバリアントを有する体細胞が混在した状態(モザイク)である。生殖細胞系列バリアントと体細胞バリアントの区別は、以降で示すように、対象とする疾患と目的において重要となる。
遺伝的要因が発症に関わる遺伝性疾患では、生まれつき持っている生殖細胞系列バリアントを調べることで、疾患発症リスクを検討することができる。例えば、遺伝性乳癌卵巣癌(Hereditary Breast and Ovarian Cancer syndrome; HBOC)は、生殖細胞系列のBRCA1/2遺伝子に生じる病的バリアントが原因であることが知られている[3, 4, 5]。そのため、BRCA1/2遺伝子における生殖細胞系列バリアントの有無を調べることで、発症リスクを知ることができる。
一方、遺伝性腫瘍(遺伝性のがん)以外の大部分のがんでは、環境や加齢の影響で後天的に得られるバリアントの影響でタンパク質が正常に機能しなくなり、細胞ががん化すると考えられている。このようながんでは、正常に機能していないタンパク質に対する薬剤(分子標的治療薬)が有効である。例えば、進行性の非小細胞性肺癌(non-small-cell lung cancer; NSCLC)では、標準治療の薬剤投与奏功率は27.5%であると言われているが、EGFR遺伝子にバリアントを有する患者群では、奏功率76.4%と飛躍的に上昇することが知られている[6, 7]。そのため、がんでは体細胞バリアントを調べることで治療方針決定に役立てられることに期待がされており、日本でも2019年6月より、がん遺伝子パネル検査が保険診療で受診できるようになっている。
1.2 ゲノム解析の流れでは、どのようにバリアントの有無を調べるのか。ゲノム医療におけるゲノム解析の大まかな流れを図1に示す。まず患者から得られる血液や組織切片等からゲノムDNAを抽出し、次世代シークエンサーを用いて塩基配列を読みとることから始まる。シークエンサーにより解読された塩基配列を、参照配列と照らし合わせ、違いの検証を行う。参照配列との照らし合わせる作業のことをマッピングという。マッピングの結果に対し、既存情報なども活用しながら検出アルゴリズムを適用してバリアントリストを作成する。バリアント検出のためのアルゴリズムは実に多様であるため詳細は割愛するが、生殖細胞系列バリアントではthe Genome Analysis Toolkit (GATK)[8]が、体細胞バリアントではMutect2[9]などが用いられることが多い。検出されたバリアントに対し、VEP[10]やANNOVAR[11]などのアノテーションツールを用いて遺伝子情報のアノテーションを行い、絞り込みを行う。さらに、患者の詳細情報や既存のデータベースや論文情報を元に、バリアントに対する臨床的解釈を行い、診断や治療方針決定に用いる。シークエンサーで解析する際、生殖細胞系列の検査では血液などの非腫瘍組織を、体細胞系列遺伝子検査ではがん細胞を調べたいので、腫瘍組織を対象とする。ただし、体細胞系列遺伝子検査では、生まれ持ったバリアントか後天的に得られたバリアントなのかを区別するために、非腫瘍組織と腫瘍組織をセットで解析することが多い。
次世代シークエンサーでの解析には、対象とするゲノム領域によって種類がある。全ゲノム領域を解析対象とする全ゲノムシークエンシング(Whole Genome Sequencing; WGS)、エキソーム領域のみを対象とする全エクソームシークエンシング(Whole Exome Sequencing; WES)、そして、あらかじめ決めた遺伝子領域のみを対象とするターゲットシークエンシング(Targeted Sequencing)がある。先述のがん遺伝子パネル検査では、がんに関連する遺伝子のみを対象とするターゲットシークエンシングを行っている。保険診療で行えるFoundationOne検査では324遺伝子を、国立がん研究センターのOncoGuide検査では124遺伝子を解析対象としている。対象遺伝子は検査毎に異なるが、主要ながん関連遺伝子は共通している。
ゲノム医療において最も重要なことは、検出されたバリアントに対する臨床的解釈である。臨床的解釈は、家系情報などを含めた症例の臨床的背景、集団内での頻度情報、そして学術論文や症例報告、公的データベースなどで共有される疾患との関連性情報を包括的に検討して行われる。臨床的な解釈には基準が必要であるため、学会等でガイドラインの作成が進められている。
メンデル遺伝性疾患では、米国臨床遺伝・ ゲノム学会(American College of Medical Genetics; ACMG)と分子病理学会(Association for Molecular Pathology:AMP)により作成された臨床遺伝子診断ガイドライン(ACMGガイドライン)[12]が、世界標準として用いられている。ACMGガイドラインでは、バリアントの病原性(Pathogenicity)を判断するためのエビデンスに対し、その支持の強さに応じたカテゴリを定義している(図2)。例えば、あるバリアントがタンパク質の機能を失う(Loss of Function; LOF)ものであり、かつ疾患の発症機序と考えられる遺伝子に生じたヌルバリアント(終止コドンに変化するナンセンスバリアントや、コドンの読み枠が変化するフレームシフトバリアントなど、大きな影響を及ぼすバリアント)である場合、「病原性を支持する強いエビデンス Pathogenic Very Strong 1 (PVS1)」を満たすと判断される。また、バリアントが主要なデータベースでアレル頻度5%以上と報告されている場合には、「病原性なし(Benign)と判断できるエビデンス Stand-Alone (BA1)」の基準を、複数のバイオインフォマティクスツールが病原性の強いバリアントであると予測した場合には、「弱いけれど支持的なエビデンス Pathogenic supportive 3 (PP3)」の基準をそれぞれ満たすと判断される。ACMGガイドラインでは、バリアントに対する各エビデンスがどのカテゴリ基準を満たすかを判断し、基準の組み合わせで最終的な病原性を5段階で判断する。
体細胞バリアントを対象とするがんでは、米国の3学会、米国臨床腫瘍学会(American Society of Clinical Oncology; ASCO)・米国病理医協会(College of American Pathologist; CAP)・米国分子病理学会(Association for Molecular Pathology; AMP)が作成したガイドライン(AMP/ASCO/CAP ガイドライン)[13]が基準とされることが多い。AMP/ASCO/CAPガイドラインでは、エビデンスをもとにバリアントをTier 1〜Tier 4の4段階に分類し、Actionable(治療薬の選択や予後の予測に用いることができるなどの臨床的有用性)がどうか判断する(図3)。バリアントに対し、専門家のガイドラインやFDA承認薬がある場合や、専門家のコンセンサスを得ており十分な症例数のある臨床試験がある場合には、そのバリアントは強い臨床的意義をもつTier 1に分類される。臨床的意義の可能性があるバリアントはTier 2 、臨床的意義が不明なバリアンとはTier 3、良性か良性の可能性が高いバリアントはTier 4に分類される。
臨床的解釈のためには、バリアントに対して包括的な調査を行い、エビデンスを得る必要がある。そのため、疾患関連性や治療情報に関するデータベースは重要な役割を担っている。ここでは特によく用いられるデータベースをいくつか紹介する。
米国の国立生物工学情報センター(NCBI)により運用されているClinVar(https://www.ncbi.nlm.nih.gov/clinvar/)[14]は、世界的に広く利用されている疾患バリアントデータベースである。主に遺伝性疾患におけるバリアントと疾患への関連性について収載しており、情報提供元においてACMGガイドラインなどをもとに付与されたPathogenicやBenignなどの臨床的解釈と合わせて公開している。提供元の多くは、米国の研究機関や遺伝子検査会社である。ClinVarの特徴の一つに、星の数で表されるエントリに対する5段階レビュー評価がある。単一のデータ提供者のみによるエントリには星が付かないが、複数の提供者から同様の臨床的解釈で登録がされた場合には星が1つ付くなど、情報の信頼性評価を示している。臨床的評価については、NIHの別プロジェクトに、複数の疾患領域の専門家によりキュレーション方法の議論や方針決定等を行うClinGen(Clinical Genome Resource program)[15]と協力体制が構築されている。ClinGenでは、各疾患の専門家により臨床的評価の基準策定が議論されるとともに、ClinVarエントリに対するキュレーションが実施されている。ClinGenによる評価が実施されたエントリには、最高レビュー評価の4つ星もしくは3つ星が付与される。
ClinVarと同様に世界的に広く参照されているデータベースに、COSMIC(Catalogue Of Somatic Mutations In Cancer)(https://cancer.sanger.ac.uk/)[16]がある。英国 Wellcome Trust Sanger研究所が運営するCOSMICは、がんに関する体細胞バリアント情報を集約した、大規模データベースである。COSMICでは、がんに関連する遺伝子および体細胞バリアントについて、各腫瘍タイプと臓器でどのくらい報告があるのか(頻度として稀なバリアントかどうか)を確認することができる。COSMICは、主に2つのデータセットで構成されている。1つはHigh Precision Data は、専門家が査読つき論文を対象にマニュアルでキュレーションしたバリンアントセットである。もう1つのバリアントセットGenome-wide Screen Dataは、大規模なゲノムスクリーニングに関する報告論文でアップロードされたデータや大規模解析データベースから取得されている。
がん領域ではさらに、米国Memorial Sloan Kettering Cancer Center(MSK)により運用される知識データベースであるOncoKB(Precision Oncology Knowledge Base)(https://www.oncokb.org/) [17]も広く用いられている。OncoKBはCOSMICと同様に体細胞バリアントを対象に、バリアントによる影響とその臨床的な意義に関する情報を集約している。現在は体細胞バリアントを対象としているが、今後は生殖細胞系列バリアントにも対象とすることを計画している。OncoKBでは、MSKの各疾患領域を専門とする臨床医・臨床研究者の監督の元、キュレーターによってマニュアルでデータが確認されており、信頼性の高い情報が収載されている。またOncoKBでは、各バリアントの治療効果や予後情報、生物学的な影響などについて検証しており、治療上の意義を4つのレベルで表現し、バリアントを分類している。
上記で紹介したデータベースは世界的にも広く用いられている。一方、これまでのゲノムと疾患に関する研究の大部分はヨーロッパ人を祖先する集団を対象に行われたものである。そのため、集積しているゲノムデータが世界的な民族集団の多様性を表現できておらず、この偏りが疾患の適切な理解を妨げ、民族集団間での健康格差を悪化させると懸念されている[18]。先のACMGガイドラインにおいて病原性の判断に集団内アリル頻度が用いられることに触れたが、大規模なゲノムデータに基づき集団での頻度情報を提供するデータベースであるgnomAD(The genome Aggregation Database)[19]では、集約されているデータの約60%はヨーロッパ人の配列であるが、アフリカ人を祖先とする配列は10%に満たないことが報告されている[20]。データが偏ることがなぜ問題なのか。そもそも疾患に影響するバリアントが民族集団で異なること明らかになっているからである。例えば、非小細胞性肺がんでは、がんの原因となるドライバー遺伝子の体細胞変異の頻度が、東アジア人と欧米人の集団では異なることが報告されている[21]。また、嚢胞性線維症(Cystic fibrosis; CF)において一般的に原因対立遺伝子とされるCFTR遺伝子の変異の割合が、ヨーロッパ人とアフリカ人を祖先とする集団では異なり、診断での混乱を生んでいることも報告されている[22]。このようなゲノムデータの偏りが、実際にゲノム医療の結果にも影響することも指摘がされている。遺伝性腫瘍のパネル検査結果を人種ごとに比較した研究では、アジア・ヒスパニック系の集団では、ヨーロッパ人に比べて臨床的意義付ができなかったバリアントの割合が多いことが報告されている[23]。
3.2 日本人ゲノムデータベースこのような背景から、ゲノムデータの多様性を高めるため、各地域の集団で取り組みが進められている。もちろん日本でも、ゲノムデータの蓄積と共有に向け様々な取り組みが進められている。日本人集団でのバリアントの頻度情報を共有するデータベースとして、京都大学が公開しているHGVD(Human Genetic Variation Database)[24]や、 東北メディカル・メガバンク機構が公開しているjMorp(Japanese Multi Omics Reference Panel)[25]などがある。HGVDは、1,208人の日本人に対するWES解析で得られたアリル頻度を提供するデータベースである。jMorpは、東北メディカル・メガバンク事業で収集されたゲノムや様々なオミクスデータの解析結果の一部を統計情報として公開しているデータベースである。jMorpで公開されている最新のアリル頻度データ54KJPNは、約54,000人に対するWGS解析で得られたものである。また、NBDCヒトデータベース(https://humandbs.biosciencedbc.jp/)に寄託されたゲノムデータを対象に、統一パイプラインを用いた再解析で得られたバリアントのアリル頻度情報を公開している日本人ゲノム多様性統合データベースTogoVar[26]がある。TogoVarでは、独自解析によるアリル頻度情報に加えて、先述のClinVarやHGVD、jMorp(ToMMo 8.3KJPN)のデータを統合している。
3.3 日本人疾患ゲノムデータベース一方、先述のClinVarのような疾患に関わるバリアントデータを集約し公開するデータベースはこれまでになかった。そこで日本医療研究開発機構(Japan Agency for Medical Research and Development; AMED)は、2016年に「臨床ゲノム情報統合データベース整備事業」を開始した。本事業では、「がん」「稀少・難治性疾患」「感染症」「認知症」「難聴」を対象に、国内でゲノム医療を行う研究機関との協働により、日本人疾患ゲノム情報統合データベースMGeND(Medical Genomics Japan Database)[27] を開発した。MGeNDでは、各疾患領域で集積された臨床ゲノムデータ(ゲノムデータとそれに紐づく臨床データ)のうち、公開可能な情報を疾患横断的に統合したデータベースである。2018年3月の公開以降、様々な医学研究で得られたゲノムデータの提供を受けデータ数を増やしながら、京都大学で運用を行ってきた。AMEDによる事業終了後は、厚労省事業として継続運用のための体制構築がなされ、2021年より国立国際医療研究センターで事業を継承した。そのためMGeNDのURLがhttps://mgend.ncgm.go.jp/ に変更されていることに注意されたい。
MGeNDは、誰でも利用可能な「非制限公開データベース」として、公開可能な臨床情報とバリアント情報を集約している。臨床情報は、個人情報や個人識別符号を含まないよう配慮された患者基本情報としており、疾患名(診断名)と性別・年齢層が登録されている。登録されたバリアントデータは、ゲノム位置に基づき統合されている。また、MGeNDでは単一遺伝子疾患のみならず、感染症や認知症などの多因子疾患も対象に、広くバリアントデータを収載している。バリアント単位で統合されたデータに対し、疾患横断的な検索が可能である。
MGeNDに収載しているデータには、ClinVarでは扱っていないものもある。 疾患領域によって、主要なゲノム解析方法は異なる。多因子疾患を対象とした研究では、DNAマイクロアレイ(SNPアレイ)を用いたゲノムワイド関連解析(Genome Wide Association Study; GWAS)が主流である。また、感染症など、免疫にかかる疾患では、免疫応答の中心的役割を担うタンパク質であるヒト白血球抗原(Human Leukocyte Antigen; HLA)のアリル型に着目した研究が多く行われている。そのためMGeNDでは、ClinVar等で扱われるSingle Nucleotide Variant(SNV)等のデータに加え、GWAS解析で得られるバリアントセットとHLAアリル型頻度データも対象としている。
MGeNDには、2023年8月時点で12万以上のバリアントが登録されている(表1)。ユニークなバリアント数は約6万であり、複数の疾患領域で共有されているバリアントもあることがわかった(表2)。収載されているデータをClinVarと比較すると、7割はMGeND独自データであることがわかった(図4)。さらに、ClinVarとの共通バリアントのうち、解釈が完全一致しているのは約2割であった。今回はラベル情報のみを用いた簡単な比較であるため、今後詳細な比較検証が必要ではあるが、不一致のバリアントには、日本の百寿者コホートによりBenignと判定されているが、ClinVarではLikely benignやUncertain significanceとなっているバリアントも多く含まれていた。このことからも、各民族集団でのデータ集積の取り組みの重要性は明らかである。
疾患領域ラベル | バリアント数 |
---|---|
Rare/Intractable disease | 7,419 |
Cancer | 119,096 |
Dementia | 2,322 |
Infectious disease | 1,215 |
Others | 9,972 |
Total | 140,024 |
疾患領域ラベル | ユニークバリアント数 |
---|---|
Rare/Intractable diseases | 6,323 |
Cancer | 54,782 |
Dementia | 2,030 |
Infectious diseases | 1,156 |
Others | 7,209 |
Rare/Intractable diseases, Cancer | 129 |
Rare/Intractable diseases, Infectious diseases | 48 |
Rare/Intractable diseases, Dementia | 3 |
Rare/Intractable diseases, Others | 164 |
Cancer, Dementia | 1 |
Cancer, Others | 2,222 |
Others, Dementia | 63 |
Others, Infectious diseases | 2 |
Rare/Intractable diseases, Cancer, Others | 15 |
Rare/Intractable diseases, Dementia, Others | 1 |
Rare/Intractable diseases, Cancer, Infectious diseases | 3 |
Total | 74,151 |
現在進められている日本におけるがんおよび難病に対する取り組みについても触れておきたい。2019年より開始されたがん遺伝子パネル検査により得られるゲノムデータは、国立がん研究センターのがんゲノム情報管理センター(Center for Cancer Genomics and Advanced Therapeutics; C-CAT) (https://for-patients.c-cat.ncc.go.jp/)に集積されている。これまでに56,844人 (2019年6月1日〜2023年6月1日〜2023年6月30日まで)のデータがC-CATにはには登録されている[28]。登録されているデータは、遺伝子検査の結果の他に、年齢や性別などの基本情報から家族歴などの背景情報、そして治療奏効に関する医療機関で入力されたデータが含まれている。さらにC-CATでは、これらの蓄積されたデータ利活用を2021年から開始している。自施設での倫理委員会での承認とC-CATへの利用申請と承認により、研究に使用することが可能となっている。
次世代シークエンサーによる解析にはいくつか種類があることに触れた。これまで主に実施されているゲノム解析はWESもしくはターゲットシークエンシングであった。解析対象を絞ることで効率的な解釈と高い費用対効果が見込める一方、遺伝子の非コーディング領域や大きなゲノム構造の変化を捉えることは難しく、疾患機序に関わる多くのバリアントが見落とされている可能性があった。そのため現在、大規模な全ゲノム解析が世界的に実施されている[29, 30]。日本でも「経済財政運営と改革の基本方針 2019」において、がんと難病を対象に10万人の全ゲノム解析を実施する実行計画を策定することが2019年に閣議決定された。そして2022年に発表された「全ゲノム解析等実行計画2022」のもと、これまでに難病領域で約8,000件、がん領域で約12,000件のゲノム解析が行われている[31]。今後、蓄積されたデータの活用のためのデータ共有基盤整備が進められることに期待が寄せられている。
本稿ではゲノム医療の背景と基本的な解析とデータベースについて紹介した。ただし、ゲノム医療での一番の課題は、分子機能への影響や疾患機序不明で臨床的な解釈ができないVariants of Uncertain Significance(VUS)の存在である。実際のゲノム解析で検出される多くのバリアントはVUSであることが多く、この場合、診断や治療方針決定に用いることができない。VUS解明のために様々な課題があるが、バイオインフォマティクスに期待される中で特に重要なのは、臨床ゲノム情報の共有と既存データを活用した予測であると考えている。
まずデータ共有に関して、医療機関・研究機関で集積される各患者の詳細な背景情報を共有することは、臨床的解釈のための重要なエビデンスとなる。しかし、日本では個人情報保護法によりゲノム情報は要配慮個人情報として取り扱われるため、データ共有には様々な課題がある。これは世界共通の課題である。データ共有の仕組みを議論する国際協力組織GA4GH(Global Alliance for Genomics and Health)がある。GA4GHでは、ゲノム医療発展のための各国間でのゲノムデータ共有を目指し、各国での倫理的課題や情報基盤技術への取り組みを共有し、それらに基づく国際標準の構築に取り組んでいる。倫理的課題や情報基盤に加えて、今後のデータ共有における重要な課題に、バリアントデータの標準化がある。全ゲノム解析では膨大なバリアントデータが得られることに加え、実に複雑かつ多様な構造多型が検出される。構造多型を含む多様なバリアントデータを適切に共有するためには、標準化が必要となる。そこで我々はバリアント情報標準化研究会(Variant Information Standardization Collegium; VISC)を立ち上げ、次世代シークエンサーから得られる構造多型を含むバリアント情報を標準化し、本稿で取り上げたTogoVarやMGeNDなどの国内のバリアントデータベースで連携運用するための手法開発に取り組んでいる。
2点目に挙げた既存データを活用した予測は、まさにバイオインフォマティクスに期待されるものである。コードするアミノ酸を変えてしまうミスセンスバリアントに対する分子への影響や疾患との関連性を予測する機械学習手法はこれまで多く開発されている。既存手法の多くは、配列保存性やタンパク質立体構造における物理化学的特徴を用いて予測を行っている[32, 33, 34, 35, 36]。2022年にNatureで発表されたEVEは、生成モデルと大規模なアミノ酸配列のマルチプルシークエンスアライメントデータを用い、ハイスループットな実験よりも高精度にバリアントの病原性予測を達成したと報告している[37]。一方で、疾患の発症機序には生体内分子間の相互作用も関わっていることも明らかになっている。そこで我々は、グラフで表現される分子間相互作用を用いた病原性予測手法の開発にも取り組んでいる[38, 39]。また、これまでの予測手法では浸透率(疾患に関わるバリアントを有する患者が実際に発症する割合)が考慮されているものはないが、大規模解析などで、遺伝性疾患における浸透率が中程度もしくは低いバリアントの存在も明らかになっている。また本稿で取り上げた民族集団間での頻度の違いなどを考慮したような予測や、影響度から疾患機序解明に紐づけることができるような高い説明可能性を有した予測手法の開発にも期待がされる。
MGeNDは厚生労働省「臨床ゲノム情報公開データベース支援事業」の支援を受けて運営している。また本稿は、JSPS科研費JP23K11319の支援を受けたものである。図の作成にTogo picture gallery (© 2016 DBCLS TogoTV, CC-BY-4.0)を使用させていただいた。