JSBi Bioinformatics Review
Online ISSN : 2435-7022
Primers
難病・希少疾患のためのゲノム医療とバイオインフォマティクス
三嶋 博之
著者情報
ジャーナル オープンアクセス HTML

2023 年 4 巻 1 号 p. 26-34

詳細
Abstract

ゲノム情報にもとづく医療の分野は大きく広がっている。その中で最も患者・家族のもとに成果をとどけられた分野の一つが、難病・希少疾患のゲノム医療である。難病・希少疾患は、個別の疾病としてはまれなものであるが、試算によっては、その数は10,000以上に上る。総数としては、日本では指定難病症例だけでも100万症例を超える「ありふれた疾患」と言える。他のゲノム医療分野と同様に、この分野においてもバイオインフォマティクスは中心的役割を果たしている。エクソーム解析・全ゲノム解析といったゲノム網羅的な解析は強力ではあるが、現状における診断率は概ね40%台にとどまっている。本稿ではこの診断率を向上させるための方策、現状の難病・希少疾患解析ワークフローの概要とともに、ワークフロー改良のための新たな試み、そして今後の社会実装について概説する。

1.難病・希少疾患はまれな疾病ではない

日本人類遺伝学会の定義[1]によると、遺伝学とは「遺伝と多様性の科学」である。遺伝現象のみならずヒト集団の持つ遺伝型(genotype)と表現型(phenotype)の多様性はヒトの遺伝学における重要な解析対象である。表現型には、疾病に関わる特徴(疾患の有無・重症度・感受性)から個人の健常な特徴(体の大きさ・顔つき・運動能力・性格など)までが含まれる。それらいずれの表現型も、その原因として環境要因とゲノムDNA上の要因である遺伝要因の両方が一定の割合で寄与している。疾病に関係する表現型(図1A)の場合、例えば感染症や中毒・外傷といった疾患は環境要因が極めて強いと言え、単一遺伝子病であれば遺伝要因が極めて強いと言える。認知症やがん、高血圧といったありふれた疾患(common diseases)の原因は、疾患に関与する個々の遺伝要因であり、具体的には個人のゲノムDNA配列に多数存在する多様性(バリエーション)である。それら各々を、その強さ(発症に寄与するオッズ比)と集団における頻度で分類したのが図1B(Manolio et al.[2]より改変)である。本稿で述べる希少疾患は、その概ね80%に遺伝型が関与する(genetic)な疾病であると考えられ、多くは単一遺伝子病(メンデル遺伝病)と重なる概念である。希少疾患の多くは、この図の左上に位置し、集団における頻度はごくまれであるが表現型に与えるインパクトが極めて強いバリエーションが原因である。ありふれた疾患は右下、また医薬品に対する表現型を対象とした遺伝学(pharmacogenetics)は図の右上に位置する分野といえる。そして、これら三群の中間に位置する群は、遺伝力の欠損(missing heritability)と呼ばれる解析の難しい領域である。未解明の疾患の原因となる遺伝要因は、この領域にも存在する。

図1:

他の疾病と比べての難病・希少疾患(単一遺伝子病・メンデル遺伝病)の特色。A:単一遺伝子病の表現型は環境要因よりも遺伝要因の影響を圧倒的に強く受けている。B:集団におけるバリエーション頻度とオッズ比で分類した単一遺伝子病・多因子疾患・Pharmacogeneticsおよびmissing heritability。Manolio et al., Nature (2009) 461: 747-753より改変。

2013年のWHOの白書[3]によると、例えばEUでは希少疾患は発生頻度0.05%以下の疾患と定義される。同白書によると、世界の15人にひとりが何らかの希少疾患に罹患していると考えられ、この割合に基づくとヨーロッパで3,000万人、米国で2,500万人、日本で845万人が希少疾患に罹患していることになる。日本独自の疾患分類である難病は、2014年成立の難病法によると「発病の機構が明らかでなく/治療方法が確立していない/希少な疾患であって/長期の療養を必要とするもの」と定義されている。また医療費助成の対象となる指定難病の要件には前述4条件に加えて「患者数が本邦において一定の人数(人口の約0.1%程度)に達しないこと/客観的な診断基準(またはそれに準ずるもの)が成立していること」という2条件が加わる。指定難病は、概ね希少疾患と重なる概念と言える。さまざまな既存の疾患定義を統合したMondo Disease Ontologyのleaf termsにもとづく推計[4]では、希少疾患として10,000種類の疾病が存在すると考えられている。指定難病には、2021年7月1日施行時点で338の疾病[5]が指定されている。2019年の調査[6]では当時の333指定難病のうち195の疾病(約59%)が単一遺伝子性ないしは単一遺伝子性疾患と多因子疾患が混在する疾病であった。指定難病症例数の総数は、2021年度末で1,021,606症例[7]であった。また、日本国内で未診断の状態にある希少患者数は2018年の報告[8]では少なくとも37,000人以上と見積もられている。このように患者数の総和で考えると、難病・希少疾患は決してまれな疾病ではないのである。

2.希少疾患の診断の難しさ

2.1 希少疾患診断の価値

希少疾患の診断がつくことは、患者とその家族にとってどのような意味があるだろうか。メリットには積極的な治療の可能性や公的な医療費補助の対象の可能性、成長・発育および将来の合併症の予測、リハビリテーション(回復支援)/ハビリテーション(発達支援)計画の策定への応用などが考えられる。一方、デメリットもありうる。診断がついても対症療法を超える医学的対応の余地がない(医学的行動可能性medical actionabilityに乏しい)場合、生命予後が悪く治療法がない場合、血縁者に診断の影響がある場合は、家族・血縁者にむしろ大きな不安をもたらす可能性を十分考慮しなくてはならない。臨床遺伝専門医・認定臨床遺伝カウンセラー・医療ソーシャルワーカーを含む医療従事者のチームが、患者とその家族を支える必要があるのはこのためである。またバイオインフォマティクスによる解析結果と医療従事者の橋渡しを行う専門家(日本遺伝子診療学会が認定するジェネティックエキスパートなど)の役割も大きい。これらを考慮した上でもなお希少疾患の診断は、診断を求める放浪の旅(diagnostic odyssey)とも例えられる患者・家族の状況に終止符を打ち、医療チームともに前に歩みを進めるための重要なきっかけと捉えることができる。

2.2 希少疾患解析ワークフローの概略とその限界

まず、一例として著者の使用している希少疾患解析ワークフローの概略について示したい(図2表1)。このワークフローはイルミナ社の技術に代表される短鎖シークエンサーが出力する生の読み配列情報(FASTQファイル)から始まる1塩基バリエーション(SNV)、小規模挿入欠失(small indel)の検出と、その後の疾患候補バリエーション絞り込みまでを目的としている。もちろん、施設間での解析方針によってワークフローは異なるので、あくまでも一例である点に留意する必要がある。

図2:

短鎖シークエンサーが出力する配列情報からのSNVおよびsmall indelの検出と、その後の疾患候補バリエーションの絞り込みまでのワークフローの一例

表1:本稿で紹介した希少疾患解析ワークフロー例に用いられる主なソフトウェアとデータベース
目的名称参照URI参考文献
低品質FASTQ情報の除外fastphttps://github.com/OpenGene/fastp9
マッピングbwahttps://bio-bwa.sourceforge.net/10
novoalignhttp://www.novocraft.com/products/novoalign/
SNV/small indelの検出GATK best practiceshttps://gatk.broadinstitute.org/11
gVCF群の統合(genotyping)GATK GenotyeGVCFshttps://gatk.broadinstitute.org/11
GLnexushttps://github.com/dnanexus-rnd/GLnexus12
遺伝子情報アノテーションANNOVARhttps://annovar.openbioinformatics.org/13
SnpEffhttps://pcingola.github.io/SnpEff/15
VEPhttps://ensembl.org/info/docs/tools/vep/16
ゲノム情報アノテーションSnpSIFThttp://pcingola.github.io/SnpEff/17
VCFannohttps://github.com/brentp/vcfanno/18
BCF toolshttps://samtools.github.io/bcftools/19
バリエーション頻度DBGnomADhttps://gnomad.broadinstitute.org/20
日本人バリエーション頻度DBToMMo 38KJPNhttps://jmorp.megabank.tohoku.ac.jp/21
遺伝子情報DBGENCODEhttps://www.gencodegenes.org/22
RefSeqhttps://www.ncbi.nlm.nih.gov/refseq/23
MANEhttps://www.ncbi.nlm.nih.gov/refseq/MANE/24
スプライシング影響バリエーションの予測SpliceAIhttps://github.com/Illumina/SpliceAI/25
疾患バリエーションDBClinVarhttps://www.ncbi.nlm.nih.gov/clinvar/26
HGMD professionalhttps://digitalinsights.qiagen.com/products-overview/clinical-insights-portfolio/human-gene-mutation-database/
遺伝子と疾患表現型のDBOMIMhttps://www.omim.org/27
ハプロ不全による機能影響遺伝子の予測pLI/LOEUFhttps://gnomad.broadinstitute.org/help/constraint32
タンパク機能へのダメージ予測スコアのコレクションdbNSFPhttps://sites.google.com/site/jpopgen/dbNSFP33], [34
CNV検出XHMMhttps://zzz.bwh.harvard.edu/xhmm/35
Excavator2https://sourceforge.net/projects/excavator2tool/36
jNordhttps://github.com/bitsyamagu/jnord37
SV検出Mantahttps://github.com/Illumina/manta/38
マップ済データの目視確認IGVhttps://software.broadinstitute.org/software/igv/39
完全長ヒト参照ゲノムT2T-CHM13v2.0 (hs1)https://github.com/marbl/CHM1340
ヒト表現型オントロジーHPOhttps://hpo.jax.org/43
表現型情報からの診断支援PubCaseFinderhttps://pubcasefinder.dbcls.jp/43
2次元顔貌画像からの診断支援Face2Genehttps://www.face2gene.com/45], [46
3次元顔貌画像からの診断支援Clinifacehttps://cliniface.org/48
未診断症例の表現型・遺伝型プロファイルの情報交換Matchmaker Exchangehttps://www.matchmakerexchange.org/49
リハビリテーション/ハビリテーション支援パタカラプラスhttps://banbinokai.com/「パタカラプラス」についてのご紹介/52

低品質リードおよびアダプター配列などをfastp[9]等で除外したFASTQファイルから、bwa[10](あるいはNovocraft社のNovoalign)によるマッピング(アライメント)とGATK best practices[11]の組み合わせにより、絞り込み前のバリエーション情報(gVCF/VCFファイル)を得る。マッピングに用いる参照ゲノムの品質は、ワークフロー全体の精度に影響する。参照ゲノムとして、現在GRCh38(UCSC Genome Browser上での名称はhg38)が主に使われているが、アノテーション情報が充実しているGRCh37(同hg19)も使われている。なお、同一家系などの単位で複数の検体を解析できる場合は、各検体のバリエーション情報をgVCFファイルとして出力し、統合(genotypingとも呼ばれる)して単一のVCFファイルを生成する。統合にはGATK GenotypeGVCFs[11]や、GLnexus[12]などのツールが使われている。検出された多数のバリエーションには、公共・プロプライエタリないし施設内部のデータベース(DB)情報を使ってアノテーション(情報付加)を行い、疾患原因候補バリエーションの絞り込み条件として使う。VCFファイルに対する遺伝子情報アノテーションに用いるソフトウェアには、独自形式で出力するANNOVAR[13]、あるいは共通形式[14]で入力VCFファイルのINFOフィールドに追記するSnpEff[15] およびVEP[16]が広く用いられている。それ以外の情報のアノテーションには、SnpSIFT[17]、VCFanno[18]、BCF Tools[19]などのツールが使われている。

疾患原因候補バリエーションを絞りこむために使用する主なDBを挙げる。まずバリエーションDBが重要である。地理的・歴史的なバックグラウンドを共有するヒト集団(例えば日本人)において頻度が高い(例えば0.5%を超える)バリエーションは希少疾患の原因としては優先順位が低くなると考えられる。GnomAD[20](ノマド)には世界の多くの集団の頻度を含むバリエーション情報が収載されている。また日本人集団の解析に極めて重要なのは、東北メディカル・メガバンク機構(ToMMo)によるjMorp[21]で公開されている、38,000人の日本人バリエーション情報(ToMMo 38KJPN)である。遺伝子上のバリエーションについては、アミノ酸配列への影響のアノテーションを遺伝子DB情報とソフトウェアを組み合わせて行う。広く使われている遺伝子領域DBとしてGENCODE[22]があり、さらにRefSeq[23]も用いられている。これらを統合した転写産物セットとして、MANE[24]トランスクリプトセットと、各遺伝子の代表的なトランスクリプトを選んだMANE Selectが公開されている。スプライシングに影響を与えうるバリエーションは、スプライシングに必須なゲノム上のイントロン両末端におけるGT-AG配列以外の場所では予測が難しかった。SpliceAI[25]スコアは、高い精度でこの予測を行うため、今後より広く使われるだろう。既知の疾患原因バリエーション情報として公共DBであるClinVar[26]やQiagen社のHGMD Professionalがある。遺伝子名に対する既知疾患情報は、Online Mendelian Inheritance in Man(OMIM)[27]が最も重要である。

偽陽性バリエーションの抑制には、ゲノム上の難読領域[28]、高頻度変異検出遺伝子群[29](TTNMUC16など)の優先順位を下げることも考慮してよい。器機やワークフローに由来する施設特有のアーティファクトの除外には、施設内部での過去の解析結果(in-house DB)を使い、無関係な多数疾患で絞り込み後に残るバリエーションや遺伝子を除外すると効率的である。

実際の解析では、さらに家系内の複数の検体データを用いた遺伝モデル(de novo、顕性遺伝、潜性遺伝、複合ヘテロ接合など)の適用が重要である。特にde novoモデルに適合する場合は、10から30遺伝子程度までの強力な絞り込みが可能である。以上の条件を使い、例えばあるバリエーションが、対象集団においてまれで、遺伝子アミノ酸配列を変化させて機能喪失を起こし、既知の疾患原因バリアントであり、既知の疾患原因遺伝子であったとする。その上で、それらの情報が患者の表現型と遺伝モデルに合致するなら、そのバリエーションは強く疾患原因と疑うべきであろう。

現状の解析ワークフローの診断性能は、どれくらいなのだろうか。2015年に始まった日本医療研究開発機構(AMED)による未診断疾患イニシアチブ(IRUD)は、2018年で37,000人以上[8]と見積もられている未診断症例を対象に、主に全エクソーム解析を用いた希少疾患の診断を行っている。2021年3月時点での統計[30]では、5,136家系から2,247の確定診断を得る事ができており、その診断率は43.7%となっている。この数字は海外の報告[31]とほぼ同じ水準であり、現状での限界といっていいだろう。この診断率を向上させるには何が必要だろうか。単一遺伝子病に焦点をあわせて考えてみると、診断すべき症例と既知の症候群のそれぞれに、遺伝型情報と表現型情報がある(図3A)。両方が一致した時にはじめて診断成功となる(図3B)。既知の症候群の文献情報は決して完璧ではなく遺伝型・表現型の見逃しが十分ありうるが、それらを修正するには研究として新規報告をするしかない。この条件下で診断に繋がらないとき(図3C)は「診断症例の遺伝型を見逃していないか?」、「診断症例の表現型を見逃していないか?」、「それは本当に未知の疾患なのか?」という3つの可能性を問い直す必要がある。

図3:

単一遺伝子病の診断。A:既知の疾病の遺伝型・表現型の蓄積と、診断症例のできるかぎり網羅的な遺伝型・表現型情報。B:遺伝型・表現型の両方が一致したとき診断成功となる。C:診断成功の条件を満たす疾患がない場合、「診断症例の遺伝型を見逃していないか?」、「診断症例の表現型を見逃していないか?」、「それは本当に未知の疾患なのか?」を問う必要がある。

2.3 遺伝型を見逃していないか?

診断症例における遺伝型の見逃しを疑う場合、まずバリエーションの絞り込み条件を緩和する必要があるが、この操作は偽陽性を増加させ目視によるチェックを困難にする。これを避けるために、前述のアノテーションによるフィルタリングに加え、GnomADデータから算出した遺伝子のハプロ不全による機能喪失予測(pLI/LOEUFスコア)[32]や、タンパク質機能喪失予測スコアのコレクションであるdbNSFP[33, 34]などの情報をバリエーションの重要度の指標として使うことで、原因因子としての優先順位づけが必要になるだろう。さらに、SNV/small indel以外のバリエーションであるコピー数バリエーション(CNV)の検出(XHMM[35]、Excavator2[36]、jNord[37]などのソフトウェアが知られる)、ゲノム構造変異(SV)の検出(Manta[38]などのソフトウェアが知られる)を試みることになる。これらのバリエーションについては、Integrative Genomics Viewer(IGV)[39]によるマッピング済みリードの目視確認がより重要になる。

短鎖シークエンサーによるCNV、SVあるいは繰り返し配列内のバリエーションの検出には限界がある。症例によってはPacBio社やOxford Nanopore Technologies(ONT)社の技術による長鎖シークエンサー解析も選択肢に入るであろう。また、短鎖・長鎖データのどちらの解析においても2022年に公表されたT2T consortiumによる完全長ヒト参照ゲノムT2T CHM13[40] 参照ゲノム(UCSC Genome Browser上での名称はhs1)の高い品質[41]は注目すべきである。UCSC Genome Browserがhs1をサポートしアノテーションの整備を始めていること[42]も合わせて、今後hs1は主流となっていくと思われる。

2.4 表現型を見逃していないか?

次に、診断症例の表現型を見逃している場合である。しかし、経験ある臨床遺伝専門医が表現型を詳細に記述したとしても、その記述が自然文の場合、その一致を見出すのは容易ではない。記述に使用される言語が異なる場合は、そのことも障害になる。疾患症例からできる限り網羅的かつ機械可読的に表現型を記述する(deep phenotyping)ことができれば、この見逃しを軽減できる可能性がある。ヒト表現型オントロジー(HPO)[43]は、ヒト表現型に関わる構造化された語彙である。HPOの活用例として例えばPubCaseFinder[44]は、HPOの構造と語彙を日本語を使って検索することができる。さらに、検索したい表現型と、事前にHPOを使って注釈付けがなされた既知の希少疾患群とを比較し、より類似度が高い希少疾患を提示することができる。また、後述の症例情報共有にも、HPOは幅広く活用されている。一方、希少疾患の診断に古くから重要視されてきた顔貌の特徴(Gestalt)は感覚的なものであり記述すること自体が難しいため、その認識は臨床遺伝専門医の不断のトレーニングに依存してきた。しかし、前述のとおり多数の希少疾患の存在は人間による認識の限界を超えている

この問題を解決するための試みが機械学習などを用いて行われている。米国FDNA社が医療従事者向けに無償で公開しているウェブサービスであるFace2Gene[45]は、1,115希少疾患17,560症例[46]以上の査読済み論文の顔貌写真を中心に用いた深層学習による診断支援システムである。このシステムでは、顔貌からの診断候補症候群の提示や、既知症候群との顔貌類似性の表示を可能にしている。Face2Geneは白人症例を中心に学習していることが想定されるが、筆者らのグループが日本人での有効性を評価したところ[47]、学習済の症候群であれば49症例中42症例(85.7%)で上位10位までの診断候補として正しい症候群を提示することに成功しており、日本人においても高い性能を持つことがわかった。

機械学習ベースの診断支援の限界は、多数症例の集積が難しい超希少疾患(ultra-rare syndromes)の扱いである。一つの解決策は、1つの顔貌からより多くの情報を抽出できる3次元画像の利用である。Clinifaceソフトウェア[48]は、立体視カメラで取得・構築した3次元顔貌モデルから顔貌計測点の抽出と計測値測定を行い診断支援につなげることを目指している。筆者の試行では日本人に対する応用には日本人でのデータ蓄積が必須だが、将来の超希少疾患診断支援の一つの選択肢になり得ると考えている。

2.5 本当に未知の疾患なのか?

遺伝型と表現型の両方の一致が見つからない場合、その疾患が未報告の新規症候群の可能性がある。ここで注意が必要なのは、疾患が既知であるかどうかは一般に査読付き学術雑誌に掲載された論文の有無に基づいて判断されることである。論文が査読に耐えるには十分な根拠が示されなければならない。共通の遺伝型をもつ複数の症例を提示することや、wet実験による発症機序の裏付けはその例である。実際、このような論文報告の積み重ねはOMIMや、Orphanetといった希少疾患DBに収載・参照されている。しかし、超希少疾患では査読者からの「症例数(N)を増やせ」という指摘に答えることが困難であり、結果として論文報告ができないことになる。いわゆるN-of-1問題である。

これに対し、世界のどこかに存在するもう一つの症例を見つけるための試みがMachmaker Exchange [49]である。この仕組みでは、ヒト表現型オントロジー(HPO)で表された表現型と原因候補遺伝子名および担当医連絡先を登録する。これらがマッチした場合、担当医同士でのコンタクトを可能にする。個人のプライバシーに関わる情報の公開を最小限にして、国際的・組織横断的な情報共有を行う工夫である。本邦での同様な取り組みとしてIRUD Exchangeが2017年より始まっている[29

3.今後の難病・希少疾患のゲノム医療

今後数年間で、希少疾患のゲノム医療は日本においても社会実装のフェーズが加速すると思われる。ゲノムDNA解析技術として、DNAマイクロアレイによる染色体レベルの解析と併用しつつ、短鎖シークエンサーによる疾患別パネル解析およびエクソームシークエンシングから全ゲノムシークエンシングへの移行が進むであろう。また、PacBio社やONT社の長鎖シークエンサーが診断困難症例の解析に広く使われるようになると思われる。末梢血白血球[50]や尿由来細胞[51]などの比較的採取が容易な細胞を用いた、RNAseqによるスプライシング異常の解析やDNAメチル化プロファイル解析の応用も進むと考えられる。パネル解析はすでに一部が社会保険収載されているが、それ以外の技術に対しても公的な支援が進むことが期待される。

筆者は、希少疾患のリハビリテーションやハビリテーションの分野においてもバイオインフォマティクスの果たす役割は拡大すると考えている。近年日本国内ではここの分野の施設や指導者などのリソースの不足が問題になっており、特に患者の学童期以降においてそれは顕著である。コンピューターを活用した自宅などでの長期継続的な遠隔指導や遠隔評価はこれらの問題の解決策のひとつとなるだろう。筆者を含むグループは、「パタカラプラス」[52]と名付けた共同プロジェクトを臨床遺伝専門医、患者会、地域の方々、情報科学研究者と始めている。このプロジェクトでは、トレーニング動画の開発とYouTubeでの公開、発声・構音のコンピューター支援とレーニングと評価システムの開発をとおして課題の解決を目指している。こうした試みは、希少疾患を持つ方々のQuality of Lifeを向上させるためにさらに広がることが期待される。

Tanennbaum[53]は、translational bioinformaticsを「巨大データを健康に変換する方法の開発」と解釈している。筆者は、そのなかでも最も先行している分野が難病・希少疾患のバイオインフォマティクスであると考えている。日本における難病・希少疾患のtranslational bioinformaticsをさらに加速するために、ぜひ幅広いバイオインフォマティクス分野の研究者が、基礎研究および社会実装を進めるために参画してくれることを期待している。同時に、希少疾患医療チームの現場の人間がバイオインフォマティクスの世界に飛び込むような交流がもっと広がることにも期待している。

謝辞

本稿執筆にあたり2022年8月18~19日に開催された新学術領域「ポストコッホ生態」研究集会@長崎大学での議論を参考にした。また本稿は、三菱財団2021年度社会福祉事業・研究助成金、AMED課題番号JP22ek019485、JSPS科研費JP21K07800の支援を受けたものである

References
著者略歴

三嶋 博之
1997年北海道大学歯学部卒業。歯科医師。同大学口腔顎顔面外科入局。2001年同大学大学院歯学研究科修了。博士(歯学)。北海道大学病院口腔外科勤務などを経て口唇口蓋裂の遺伝学への興味から2003年-2008年米国アイオワ大学博士研究員。現在は長崎大学人類遺伝学教室(吉浦孝一郞教授)にて助教。日本遺伝子診療学会認定ジェネティックエキスパート。

 
© 2023 日本バイオインフォマティクス学会

This article is licensed under a Creative Commons [Attribution-NonCommercial-ShareAlike 4.0 International] license.
https://creativecommons.org/licenses/by-nc-sa/4.0/
feedback
Top