JSBi Bioinformatics Review
Online ISSN : 2435-7022
Primers
ヒトゲノム計画とヒトゲノム完全解読
清水 厚志
著者情報
ジャーナル オープンアクセス HTML

2022 年 3 巻 1 号 p. 11-19

詳細
Abstract

2003年4月14日にヒトゲノム計画完了宣言がなされてから約20年後の2022年4月1日にThe Telomere-to-Telomere (T2T) consortium によりヒトゲノム「完全」解読論文が発表された[1]。本稿では技術的限界まで精確なヒトゲノム配列を追い求めたヒトゲノム計画の国際チームがなぜ当時ヒトゲノム配列を完全解読することができなかったか、そして近年開発された様々な技術を駆使してどのようにT2T consortiumがヒトゲノム完全解読を達成したかについて概説する。

【ヒトゲノム計画】

まずヒトゲノム計画(Human Genome Project: HGP)が何を果たしたかについて説明する。ヒトゲノム解析の戦略は1984年11月にカリフォルニア大学サンタクルス校学長であったRobert L. Sinsheimerらにより立案され[2]、1986年に米国連邦政府エネルギー省(U.S. Department of Energy's: DOE)衛生環境局長のCharles DeLisiから米国連邦議会にHGPとして提案された。翌1987年にDOEから予算を獲得し、1988年にはアメリカ国立衛生研究所(National Institutes of Health: NIH)からも予算を獲得し、国際組織であるHUGO(Human Genome Organization)が設立された。1990年にDOEとNIHが覚書を作成し、HGPは正式に開始された[3]。1991年にDNA二重らせん構造の解明でノーベル賞を受賞したJames D. Watsonが代表となりHGPは稼働し、1992年にFrancis Collinsに代表を交代した後、2000年5月にヒトゲノム概要配列の発表[4]、2003年4月にヒトゲノム全染色体配列発表を行った[5]。HGPで設定したゴールは、1.遺伝子地図の作成、2.ゲノム物理地図の作成、3.ヒトゲノムのユークロマチン注1)の95%以上を99.99%以上の精度で解読、4.シークエンシングコストの削減、5.一塩基多様体(Single Nucleotide Variant: SNV)の同定、6.遺伝子の同定、7.モデル生物のゲノム解読、8.遺伝子機能解析であったが、そのすべてを達成し、2004年10月にHGP完了宣言がなされた。完成したヒトゲノム配列は2.85 Gbp(28億5千万塩基)に及び、決定した各塩基の精度は99.99%以上、ユークロマチンの99%をカバーしたが、テロメアやセントロメアとその周辺領域であるヘテロクロマチン注1)、およびセグメント重複などの当時の技術では解読できないと判断された341ヶ所の隙間(ギャップ)があった(図1)。

図1:染色体の構造

図中上の13番から22番のアクロセントリック染色体の短腕部にはリボソームDNA(直角五角形)のクラスターが存在する。図中下のメタセントリック染色体あるいはサブメタセントリック染色体を含むすべての染色体の両端にはTTAGGGというテロメア配列(濃いグレーの角丸長方形)が1万文字以上続いている。染色体の短腕と長腕の間にはセントロメア(黒色の角丸長方形)が存在する。セントロメアには171塩基のalpha satellite 配列が多数連続したクラスターが存在する。その他、染色体の様々な場所に90%以上の同一性を持つ1 kbp(一千塩基)以上の配列群であるセグメント重複が散在する。同一配列は矢印で示した。

HGPヒトゲノム配列公開後の2003年からはヒトゲノム配列の生物学的機能解読を目的としたENCODE(ENCyclopedia of DNA Elements)計画が始まり[6]、転写開始部位の同定、ヒストン修飾部位や遺伝子制御領域であるエンハンサーやサイレンサーなどの機能エレメントなどが同定された。さらに、2010年にはIHEC(International Human Epigenome Consortium)が設立され、DNAのメチル化やヒストン修飾などの遺伝子制御の総称であるエピゲノムの大規模解読がなされた[7]。その後、ヒトゲノムを中核とした研究はゲノム、エピゲノム、トランスクリプトーム、プロテオーム、メタボロームを対象とした多層オミックス解析に進んでいる。

一方で国際連携の主眼が機能解析に移った後もヒトゲノム配列は引き続き改訂が続き、2000年の概要配列(UCSC human genome version 1; hg1)から2003年のHGP完成版(NCBI build 33、UCSC hg15)、ENCODE改訂版(build 34~36、hg16~18)を経て、2009年1月にはGenome Reference Consortium(GRC)が次世代型シークエンサー等によるデータも統合して作成した GRCh37、および対応するUSCS版のhg19が公開され、2022年現在も安定版として使われている[8]。2013年12月には1000 Genome Project(1KGP)[9]のデータも統合し、ゲノム多様性に対応したGRCh38/hg38が公開されたが、ゲノム位置情報が不明な断片データの追加などにより、ギャップの数はHGP完了時の341ヶ所から400ヶ所以上(102ヶ所のデータが欠けている真正ギャップと368ヶ所のセグメント重複による未解決領域)へと増加している。

今回発表されたT2T consortiumヒトゲノム完全配列はユークロマチンに位置するこれらのギャップと合わせてヘテロクロマチンも解読された。T2Tの成果を理解するためにこれらについて説明する。

  • ・クローニング困難領域

HGPでは階層的ショットガン法を選択したため、ゲノムDNAをbacterial artificial chromosome(BAC)に一旦クローニングし、BACを保持する大腸菌を増殖させた後にpUCベクターにサブクローニングしてからシークエンシングを行った(図2左)。そのため大腸菌内で組み換えを起こしやすい繰り返し配列、特にCAに富む領域が含まれる場合に欠失を起こしやすく、正しい配列が得られない領域があった。

図2:全ゲノム解析方法

左図:ヒトゲノム計画(HGP)では階層的ショットガン法を選択したため、ゲノムDNAを断片化後、150 kbp(15万塩基)程度のDNA断片を挿入できるbacterial artificial chromosome(BAC)に一旦クローニングし、BACを保持する大腸菌を増殖させた後に2~3 kbp(2~3千塩基)程度のクローニングが可能なpUCベクターにサブクローニングしてからシークエンシングを行った。シークエンスデータをソフトウェアであるphrapによりアセンブルし、BAC配列の再構成を行った。最後にヒトゲノム物理地図とBAC配列の相同性を参考に染色体配列を再構成した。

右図:T2T consortiumでは複数の最新型DNAシークエンサーと新規技術、および新規データ解析技術によりヒトゲノム完全配列を決定した。まずPacBioのHiFi法により環状DNAであるダンベル型ライブラリをシークエンシングし、得られた配列を統合することで20 kbp程度の高精度な配列を得た。ONTの超長鎖シークエンスを組み合わせることで領域を決定し、染色体配列を再構成した。続いてIllumina社の短鎖シークエンスや、Hi-C、Strand-seqによるエラーの修正と、光学マップによる繰り返し配列の検証を行い、ヒトゲノム完全配列を決定した。

  • ・セグメント重複(Segmental Duplication)

セグメント重複は90%以上の同一性を持つ1 kbp以上の配列と定義されており[10]、霊長類の中では特に大型類人猿で高度に複雑化した構造を取っている。ヒトゲノム中には数Mbp(数百万塩基)に渡り同一の配列が複数存在する領域があり、大規模な転座や逆位による遺伝性疾患の原因となる場合もあるが、健常人でも見られる一般的なセグメント重複多型も存在する。個人ごとにユニットの数や向きが異なるため、複数人のゲノムを材料としたHGPではセグメント重複に伴うギャップを解決することができなかった。

  • ・セントロメア(Centromere)

セントロメアは染色体の長腕と短腕が交差する部位であり、ヒトのほとんどの染色体ではほぼ中央に位置する。細胞分裂の際にはCentromere Protein A(CENP-A)などが結合し、動原体(kinetochore)を形成する。セントロメアには50~70%程度の多様性を持つ171塩基のalpha satellite 配列(aSat)、42塩基のHuman satellites 1A(HSat1)などの短い繰り返し配列が存在する。aSat配列は同一方向に複数並んだユニットを形成し(たとえばa-b-c)、この一連のユニットがほぼ同一の配列ユニットとしてさらにHOR (Higher-Order Repeat)を形成している(abc-abc-abc...)[11]。セントロメアの繰り返し配列は長大であり、かつ周囲にセグメント重複が存在するためHGPでは解読することができなかった。

  • ・テロメア(Telomere)

テロメアは各染色体の末端に存在するhuman telomere sequence(TTAGGG)により形成され、テロメア結合タンパク質によりループ状構造を取り、保護された状態にあると考えられている。一般的にヒトの誕生時のテロメア長は10 kbp程度であり、細胞分裂を繰り返すたびに短くなる。テロメア近傍領域は組み換えのホットスポットであり[12]、染色体間での相同性が非常に高いためHGPではギャップを解決することができなかった。

  • ・リボソームDNA(Ribosomal DNA)

リボソームはペプチド鎖の合成を行っている細胞内小器官であり、タンパク質とRibosomal RNA(rRNA) から成る。rRNAをコードするのがリボソームDNAであり45 kbpのほぼ同一の配列でヒトゲノム中に平均300個程度存在する。ゲノム中では超高度に重複して一部の染色体に局在しており、ヒトではアクロセントリック染色体注2)である13, 14, 15, 21, 22番染色体の短腕に位置する。BACの最大挿入長を超える連続配列が存在するためHGPでは解読することができなかった。

【次世代型シークエンサーの登場】

T2T consortium がこれらの未解読領域の配列を解読できたのはHGPで使用したスラブゲル型、およびキャピラリー型シークエンサーと全く原理が異なる次世代型シークエンサー(Next-Generation Sequencer: NGS)が開発されたためである。2005年に454 Life Sciences社からJames D. Watsonの個人ゲノム解読にも利用されたNGSであるGenome Sequencer System GS20が発売された。この機種は80-120塩基のDNAを一度に20万配列以上も決定することが可能であり、当時としては驚愕的な性能を有していた。その後、Solexa社(現Illumina社)のGenome Analyzer、ABI社のSOLiD、Thermo Fisher社のIon Torrent、Complete Genomics社(現MGI子会社)のDNA nanoball sequencingなどの異なる手法を用いた複数のNGSが登場したが、シークエンス長はキャピラリー型シークエンサーの1,000塩基を超えることができず、現在でも発売されているIllumina社のNovaSeqやMGI社のMGISEQ-T7は短鎖型シークエンサーと呼ばれている。最初の長鎖型シークエンサーであるPacific Biosciences社のPacBio RSは2010年に限定発売された後に2011年に正式に発売された。PacBio RSのシークエンス長はキャピラリー型シークエンサーを優に超える4 kbp以上(現在では10 ~ 25 kbp)であり、de novoアセンブリによるバクテリアゲノムの新規解読などを加速した。2014年にはもう1つの長鎖型シークエンサーであるOxford Nanopore Technologies(ONT)社のMinIONの早期利用(MinION Access Programme)が開始され2015年に正式に発売された。MinIONは光学系を必要としないため非常に小型であることが特徴であるが、発売当初から10 kbp以上のシークエンス長を有しており、最長では4.2 Mbpの報告もある。今回のヒトゲノム完全解読ではこれらNGSのうちIllumina社の短鎖リードとPacBio社のHiFi(後述)、ONT社の超長鎖シークエンスのデータが活用された。

【RPCI-11とCHM13】

HGPでは主に1997年にNY州バッファロー市の男性ボランティアから作成されたBAC DNAライブラリーであるRPCI(Roswell Park Cancer Institute)-11が最も利用されている。RPCI-11は欧州およびアフリカ起源のゲノムであることが判明しており[13]、HGPではRPCI-11以外に複数のボランティア由来のDNAライブラリーを使用している。ただし、ヒトは2倍体であるため、父型母型由来のセグメント重複の相違によるギャップが生じた。さらに、異なる人物由来のゲノム配列も配置したため、個人差のある領域に解決不可能なギャップを生じることになった。

そこで、T2T consortiumではボランティアではなく全胞状奇胎(Complete hydatidiform mole: CHM)を唯一のDNAリソースとして利用した。全胞状奇胎は卵子由来の核が消失し、X型の精子(23,X)が受精後に2倍体(46,XX)になり異常増殖したもので本質的には半数体(haploid)である。そのため、通常の2倍体(diploid)ゲノムと異なり対となる染色体すべての配列が同一となる。T2T consortiumはCHMをヒトテロメラーゼ逆転写酵素(human telomerase reverse transcriptase : hTERT)で形質転換した培養細胞株CHM13hTERTを採用している。

【ヒトゲノム完全解読】

T2T consortiumはCHM13hTERTと複数の最新型DNAシークエンサーと新規技術、および新規データ解析技術によりヒトゲノム完全配列を決定した。まず、クローニングが困難な領域については2005年以降に登場した多くのNGSが鋳型DNAのクローニングが不要であったため早期に解決された()。一方で、セグメント重複、セントロメア、テロメア、リボソームDNAについては高精度かつ反復配列を上回る長さのシークエンス長を必要としたため長鎖型シークエンサーの登場を待つことになった。

表:ヒトゲノム計画完了宣言からT2Tヒトゲノム完全解読までの歴史
2003年4月 ヒトゲノム全染色体配列発表(真正クロマチン領域の95%、全配列の92%)
2004年10月 ヒトゲノム計画終了宣言
2005年10月 454社がGenome Sequencer System GS20を発売
2006年11月 Solexa社がGenome Analyzerを発売
2009年2月 ヒト参照配列 hg19/GRCh37の公開
2009年6月 15番染色体の9個のGapのうちSDではない6個を解読
2011年5月 Pacific Biosciences社がPacBio RSを発売
2012年4月 20番染色体の3個のGapを99%解読
2013年12月 ヒト参照配列 GRCh38の公開
2014年1月 Oxford Nanopore Technologies社がMinION Access Programme 開始
2015年1月 PacBioで完全胞状奇胎細胞株(CHM1)全ゲノムを解析
2018年 Telomere-to-Telomere(T2T)consortiumの設置(Adam Phillippy, Karen Miga)
2018年11月 MinIONでGM12878の全ゲノムを解析
2019年10月 PacBioを用いたhigh-fidelity(HiFi)法でHG002/NA24385の全ゲノムを解析
2020年1月 ヒトX染色体の“完全”解読論文発表
2020年4月 複数の機器・手法を組み合わせたHiCanu法で複数の解読困難領域の解読
2021年5月 ヒト8番染色体の“完全”解読論文発表、ヒトゲノム“完全”解読論文のプレプリント公開
2022年4月 ヒトゲノム“完全”解読論文発表、Y染色体の“完全”配列データ公開

今回のヒトゲノム完全解読で中心となる技術はPacBio社のHiFiである。HiFiは10~20 kbpの環状DNAを鋳型とし、同一分子を繰り返し配列決定してエラーを除去することで長鎖型シークエンサーの欠点である読み取り精度の問題を解決している。この高精度かつ長い配列データをソフトウェアであるHiCanu[14]を使用して、de novoアセンブリを行った。続いてONTの超長鎖シークエンスを組み合わせることで更に長い領域を決定し、ドラフト配列であるCHM13v0.9が完成した。CHM13v0.9に対してIllumina社の短鎖シークエンス、同一DNA分子の遠距離間の相互作用を調べるHi-C、10X Genomics 社の分子バーコードを用いるStrand-seq、など利用可能なすべての配列データを利用し、小さな多型と構造多型の両方を特定した。さらに、BioNano社の光学マップ(opical mapping)データなども用いた手動キュレーションにより、4つの大きなエラーと993の小さなエラーを修正し、CHM13v1.0アセンブリとなり、44の大きなヘテロ接合型と3,901の小さなバリアントを特定した。さらにテロメア領域を修正し、リボソームDNA領域を追加した結果、ヒトゲノムの完全配列であるT2T-CHM13v1.1が完成した(図2右)。

完成したヒトゲノム完全配列(T2T-CHM13)は3.05 Gbp(3,054,815,472 塩基)の核DNAと16,569 bpのミトコンドリアゲノムであり、HGPで未同定の341ヶ所のギャップを完全に解読した。セグメント重複、セントロメア、テロメア、リボソームDNAの領域も解読し、GRCh38から238 Mbp(約8%) の配列が追加された。内訳はセントロメア(76%)、セグメント重複(19%)、リボソームDNA(4%)である。同定したタンパク質コード遺伝子は19,969 個、ヒトゲノム中の反復配列は53.94%、ヒトゲノム中のセグメント重複は6.61%であった。ただし、セグメント重複による構造多型のため、GENCODE遺伝子の263個(448転写物)が存在しなかった。

ヒト13, 14, 15, 21, 22番染色体はアクロセントリック染色体と定義されており、特に短腕はリボソームDNAで占められていることが知られている。リボソームDNAはアクロセントリック染色体の短腕に超高度に重複して局在しているため、これまで解読がされていなかった。T2T-CHM13は219個のリボソームDNAを含み、総長は9.9 Mbpであった。アクロセントリック染色体の短腕は互いに高度に相似しており、中央値で98.7%の一致率であり、非リボソームDNA配列の96%もヒトゲノムの他の染色体で見つけることができる。リボソームDNA領域長は14番染色体の0.7 Mbpから13番染色体の3.6 Mbpまで様々であり、45S転写単位がすべて動原体に向かっている。逆位は見られず、ほぼすべてのリボソームDNAユニットが完全な長さを持っている。リボソームDNA配列からセントロメアまでの間にはセグメント重複や、トランスポゾン、サテライト配列、αサテライト配列など多様な構造を持っていた。

さらに本論文ではT2T-CHM13の有用性を紹介するために顔面肩甲上腕型筋ジストロフィー(Facioscapulohumeral muscular dystrophy: FSHD)の紹介がされている。FSHDは大きく2タイプに分類され、その1つのFSHD1型(OMIM #158900) の原因遺伝子であるDUX4は転写因子であり発生初期では発現するが、その後上流にある繰り返し配列がDNAメチル化(エピゲノム制御)されることで発現抑制をうける。しかし、いずれかの原因で繰り返し配列が短縮していると発現抑制が弱まりDUX4が発現してFSHDを発症する。この繰り返し配列にFSHD領域遺伝子1(FRG1)があり、セグメント重複を起こしている。GRCh38では多くのセグメント重複周辺領域はギャップになっているため、解析時にエラーを生じる原因となっていたが、今回のT2T-CHM13ではFRG1の全体像が解明できた。セグメント重複が関連する同様の遺伝性疾患についても機序解明や解析精度向上が見込まれる。

以上のように本論文ではヒトゲノム完全解読に必要とした技術とヒトゲノム完全配列の概要、そしてリボソームDNAとセグメント重複の1例について報告されているが、完全配列の課題であったセグメント重複、セントロメアについては多様性解析とエピゲノム解析と合わせて、付随論文中に詳細に紹介されている。

【T2Tヒトゲノム完全解読論文の付随論文】

2022年4月のScience誌ではT2Tヒトゲノム完全解読論文と共に5つの付随論文が掲載された。それぞれ重厚かつ緻密な論文であるがごく簡単に紹介する。

  • ・A complete reference genome improves analysis of human genetic variation[15

本論文ではT2T-CHM13の参照配列(リファレンスゲノム)としての有用性を報告している。1KGPの全3,202サンプルと、ロングリードでシークエンシングされた17サンプルを用いて検証し、GRCh38と比べてT2T-CHM13ではゲノム全体で100万以上の高品質なバリアントを新規発見できた。セグメント重複などのHGP未解決領域では1検体あたり数十万以上のバリアントを検出できた。また、構造変異(SV)の改善、医学的に重要な622の遺伝子におけるバリアントコール精度の向上が明らかとなった。

  • ・Segmental duplications and their variation in a complete human genome[16

本論文ではT2T-CHM13から51 Mbpのセグメント重複(Segmental Duplication: SD)を同定し、ヒトゲノムの7%がSD(31 Gbp中218Mbp)で構成されていると推定した。ついで25のヒトのハプロタイプから得られた長鎖シークエンスデータを用いて、SD領域で構造的な多様性と一塩基の多様性が顕著に増加していることを発見した。さらにSD領域から新規に182のタンパク質コード候補遺伝子や、これまで未解決だった構造可変遺伝子モデルの全塩基配列を同定した。そのほかに、比較ゲノム解析も行っており、12種類のヒトゲノムと5種類の非ヒト霊長類ゲノムのHiFiデータや既存のデータから、ヒト前頭前野の拡張と関連するTBC1D3遺伝子ファミリーがチンパンジーと比較してヒトにおいて大規模に増加していることを示した。さらにSDのDNAメチル化解析により重複遺伝子の3分の2程度がサイレンシングされていることが示した。

  • ・Complete genomic and epigenetic maps of human centromeres[17

本論文ではこれまで全く未知であったヒトセントロメアの構造を解読し、多様性について報告している。まず、ヒトのセントロメアはそれぞれ異なる構造を取っているが、連続したタンデム重複のような共通メカニズムで拡大する「層状拡張(layered expansions)」によって進化していることがゲノム全域で確認された。1,600人のX染色体の塩基配列を比較し、アフリカに祖先を持つ人がセントロメア周辺領域で最も大きな遺伝的多様性を持っており、この領域にはアフリカ人優位のaSat配列バリアントが含まれることが確認された。また、セントロメアには多くの逆位やトランスポゾン(transposable element: TE)の挿入があり、23のタンパク質コード遺伝子と141のlong noncoding RNA(lncRNA)を含む676の遺伝子と偽遺伝子が組み込まれていることがわかった。

  • ・From telomere to telomere: The transcriptional and epigenetic state of human repeat elements[18

本論文ではヒトゲノム中のTEを含む反復配列について報告している。まずT2T-CHM13から反復配列を抽出し、全ヒト反復配列カタログを作成した。今回改めてヒトゲノム中から1.65 Gbpの反復配列を同定したが、そのうち5.5 Mbpは43個の新規反復配列であった。さらに、TE、単純リピート、複合型サブユニット、サテライトを含む3つ以上のリピート配列から構成されている19個の複合型反復要素(composite repeat elements)を定義し、これらの複合型反復要素がヒトゲノムでの遺伝子ファミリーの拡大などに貢献していることを明らかとした。また本論文ではセントロメアを含む反復配列の細胞周期に渡るエピゲノムや転写についても解析している。

  • ・Epigenetic patterns in a complete human genome[19

本論文ではDNAメチル化やクロマチン構造などのゲノム制御の総称であるエピゲノムについて報告している。T2T-CHM13には3,228万ヶ所のCpGが存在しており、長鎖型シークエンサーであるONTで50 kbp 以上のDNAメチル化情報を取得すると、SDやサテライトDNAのDNAメチル化レベルを正確に決定できることがわかった。CHM13hTERTは発生初期の細胞由来であるため、ゲノム全体で低メチル化状態にあり(DNAメチル化率の中央値36.8%)、比較対象として解析されたリンパ芽細胞由来HG002と大きく異なっていた(中央値75%)。また、解決したSD領域やタンデムリピートを解読し、数十個の重複した遺伝子からなるneuroblastoma breakpoint family(NBPF)の1つNBPF1とそのパラログに着目した解析を行い、パラログ特異的エピジェネティクス研究の重要性を示している。

【今後の展開】

今回のシリーズ論文でT2T-CHM13がGRCh38と比較し有用であることが示されたことから、今後は疾患ゲノム解析の参照配列として早期に移行すべきである。一方でセグメント重複を原因とする構造多型がCHM13hTERTに存在していることから、現時点では一部の遺伝子についてはGRCh38の併用も必要と考えられる。

今後、HGPの経過と同様に多様性解析のために多民族ゲノムの完全解読が進むのは必然である。今回のシリーズ論文でも多数のゲノムと比較解析しており、すでにT2T consortiumはHuman Pangenome Reference Consortium(HPRC)と連携を始めている。ただし、今回は実質的にhaploidである全胞状奇胎を用いたことで完全解読が達成できており、T2T consortiumも同様の手法ではdiploidゲノムは解読できない可能性が高いことを示している。まずはバイオバンクや医療機関などから多民族の全胞状奇胎検体を入手して解読を進める必要がある。さらに、1細胞全ゲノム解析のように精子を単離し、ONTと10XのStrand-seqでハプロタイプを分離して決定した長鎖シークエンスを組み合わせれば高精度に個人ゲノムを完全解読できる可能性もあるが現時点で単離精子を用いた全ゲノム解析の論文は発表されておらず技術的なハードルが複数あると考えられる。しかし、すでに人類は1つのヒトゲノム完全配列を手にしているので、ある程度の時間は必要だが近未来的に個人ごとのゲノム完全配列を得られることは間違いない注3)

また、すでに想定されていたことであるが、霊長類、特にヒトでSDが多く見られ、SDがゲノム多様性を促進していることも今回のシリーズ論文で明らかとなった。今後、ヒトという生物の特徴を理解するためにも他の霊長類、特に、チンパンジー、ゴリラ、オランウータン、テナガザルのゲノム完全配列が決定されることを期待している。

【謝辞】

私をヒトゲノム研究とゲノム医学研究に導いてくださった慶應義塾大学医学部分子生物学教室教授 故・清水信義先生に深く感謝いたします。また、疾患ゲノム研究の指導をいただいた蓑島伸生先生、工藤純先生、慶應シークエンスチームリーダーの川崎和彦先生、日本の8番染色体解析リーダーであり筆者がNGSデータ解析を始める機会を与えてくださった浅川修一先生に感謝いたします。

 注釈

 注釈1:

核の中にはDNAとヒストンと呼ばれるタンパク質が結合したクロマチン(chromatin)が存在する。分裂期の細胞を色素で染色した際に濃縮して濃く染色される領域があり、この遺伝子が少なく固く閉じられている領域をヘテロクロマチン(heterochromatin)と呼び、セントロメアやテロメア周辺領域、リボソームDNA領域が含まれる。一方で、広く分散して薄く見える領域があり、この遺伝子発現に富み開かれた領域をユークロマチン(euchromatin)と呼ぶ。

 注釈2:

ヒトの染色体は1番、3番、16番、19番、20番のメタセントリック(Metacentric)染色体、2番、4番、5番から12番、17番、18番、X、のサブメタセントリック(Subtelocentric)染色体、13番から15番、21番、22番、Yのアクロセントリック(Acrocentric)染色体に分類される。

 注釈3:

本稿の受理決定後の4月20日にHPRCよりHuman Pangenome Projectのデザイン論文が公開された [20]。本計画では少なくとも26の地域集団、350人以上の高品質ゲノムデータ(計700以上のハプロタイプ参照配列)を提供することを目標としている。さらにHGPでも課題であったゲノム解読により生じる倫理的・法的・社会的課題(Ethical, Legal and Social Issues: ELSI)の特定やELSIに関する調査研究について重点的に実施する。また、T2T-CHM13では回避した二倍体(diploid)完全ゲノム配列決定技術の開発を行ない、新規に開発するツールにより遺伝子位置情報や機能領域の注釈付けを促進する。今後の国際連携に必須なデータ共有やそれに伴うエラーレポート共有の促進のためのコミュニケーション戦略の開発、クラウドを利用したデータアクセスなどについても目標としている。

References
著者略歴

清水 厚志
青山学院大学にて化学を専攻し、金属タンパク質の電子軌道の研究で博士号を取得。学位取得後は故・清水信義教授が運営する慶應義塾大学医学部分子生物学教室にて博士研究員として従事し、ヒトゲノム計画に情報解析担当として参加。その後、次世代型シークエンサーを用いた疾患ゲノム解析などバイオインフォマティクスを専門とし、現在は岩手医科大学医歯薬総合研究所の教授としてゲノム・オミックス情報を利用した個別化医療の実現を目指してゲノムコホート研究を進めている。

 
© 2022 日本バイオインフォマティクス学会

This article is licensed under a Creative Commons [Attribution-NonCommercial-ShareAlike 4.0 International] license.
https://creativecommons.org/licenses/by-nc-sa/4.0/
feedback
Top