2021 Volume 2 Issue 1 Pages 7-14
エピジェネティクスは「細胞間遺伝するゲノム外の情報」を対象とした研究分野を指す。修飾パターンの複製分子メカニズムを持つDNAメチル化を真のエピジェネティックマークと呼ぶこともある、研究の進展とひろがりにより現在の研究範囲は基本的なDNAメチル化・ヒストン修飾にとどまらない。多細胞生物の体はゲノム情報を利用して多くの機能的な組織・器官をつくっている。単一の細胞はどの時点で異なる細胞種を生じるのか、細胞のアイデンティティとなる機能はいかに確立され維持され、どのように破綻するのか?当然ながらゲノム機能発現には転写因子などのトランス因子が大きな役割を持つが、予測された結合配列の配置のみでは結合箇所の予測が不十分であることはよく知られている。配列以外のゲノムへのアクセス状況の違いを司るエピジェネティック分子機構の可変と不変の仕組を理解するために、これまでの知識と情報のリソースに併せ、さらなる解像度を持つ解析手法を用いることによって情報の連係を見出すことが今後の課題とみている。私たちのからだが30億塩基以上の高ノイズなゲノム配列情報をうまく使って多くの細胞を生み出し、生命の営みを続けているその中で、大きな間違いをせずに発生・発達を繰り返すダイナミックな仕組みに思いを馳せていただければと思う。
体を構成する細胞は必要な臓器のサイズを確保するために同様の細胞種を揃え、それぞれの核内修飾及び構造の状態は同種の細胞間でかなり忠実にコピーされている。核内情報は何らかの形で再生産されているが、DNAメチル化継承はDNAメチル化酵素とそのコファクターによりよく説明されているものの[1]、ヒストン修飾の継承は未解明な部分が多く近年も新しい知見が示されているのが現状である[2, 3, 4, 5]。広義のエピジェネティクスは概念の部分を多く残しており、未解明の分子機構連係を含めた細胞間遺伝様式全般を対象とする。
エピジェネティック情報は、ヌクレオチド(DNAメチル化)、ヌクレオソーム(ヒストン修飾、オープンクロマチン状態)から更に高次構造(ヘテロクロマチン、TADなど)まで様々な規模・レベルで遺伝子発現の活性化/抑制に関わる影響を及ぼす分子機構の有無の情報であり、これらはゲノム領域の利用可能性を媒介すると考えられる(図1)。生きている細胞の状態では、細胞固有の核内状態は発生の前段階に存在した状態を受け継ぎつつ、転写因子を含むシグナル経路に応じて様々な規模で局所的な変化を重ねて絶えず変化している。したがって、細胞が生きているということはすなわち物質であるゲノムDNAが有機的なエピジェネティック情報を持つ状態と言い換えることもできる。このような修飾/構造=情報が核ゲノム全体に存在して体系的に細胞機能を担っているという考えから細胞つまり核ゲノム単位でのエピジェネティック情報を「エピゲノム」と呼ぶ。トランス因子が細胞間で分配されて子孫細胞に残ること自体はエピジェネティクスではないが、その影響がエピジェネティック状態に連係されるきっかけを明らかにすることがエピジェネティクスの理解に必要である。本稿では主に哺乳類のエピジェネティクスについて述べるが、概念はほぼすべての再生産する生物に関連しうると思われるので参考にしていただけると嬉しい。
ヒストン8量体とDNAからなるヌクレオソーム単位が多重に折りたたまれ、核内に収納されている。DNAにはヌクレオソームを持たないフリー領域があり、頻繁に転写因子などのDNA結合因子と結合しているが、ヌクレオソームDNAに結合する転写因子もある(左)。ヒストンの修飾や組成によって折りたたまれ方は変化し、DNAへのアクセスのしやすさ(アクセシビリティ)は変化する。折りたたまれたヌクレオソームはさらに数MbサイズのDNAを含むTADやラミンを含む核膜と相互作用するLADと呼ばれる空間コンパートメントを形成する(中央)。核内には転写マシナリーや複製コンプレックス、核内RNAやRNA結合タンパク質などによる様々な組成・サイズを持つ核内構造体が存在する(右)。
エピジェネティクスの存在は、そもそもは当時不可解であったメンデルの法則に従わない遺伝性疾患の原因として見いだされた。ゲノム情報以外の情報によって伝達される細胞間遺伝メカニズムの概念が提示され、注目されるようになる。特徴的なものとしてまずゲノム刷り込み(Genomic imprinting)とX染色体不活性化に関する疾患が挙げられる。ゲノム刷り込みは生殖細胞期に獲得される雌雄それぞれに固有のエピジェネティックパターンが父性染色体-母性染色体間の違いとして成体に引き継がれる現象で、初期発生の広範なリプログラミングを逃れる遺伝子座が存在することにより起こる[6]。ゲノム刷り込みを原因とする疾患は固有パターンの形成および維持に関与する遺伝子変異やインプリンティング遺伝子座のエピジェネティック状態の継承の異常により起こる[7]。X染色体不活性化は、女性のもつ2本のX染色体のうち1本が発生初期にエピジェネティックに不活性化されて男性と同じ遺伝子量になるよう補正する仕組み(dosage compensation; 遺伝子量補償)で、抑制状態の不成立および発現の漏れ(escape)により過剰発現になりX染色体不安定症候群(X chromosome instability syndrome)と呼ばれる異常が起こる。いずれも同じ一つの核内で相同遺伝子座に異なるエピジェネティックな状態が形成される現象であり、細胞世代を超える対立遺伝子特異的な発現調節の研究材料として興味深く研究された。これらの研究はDNAメチル化/ヒストン修飾から高次構造までそれぞれの層でエピジェネティック分子機構の機能的発見をもたらし、エピジェネティクス研究の進展に大きく寄与した[8]。
エピジェネティクスの発見に寄与した象徴的な現象の研究の進展に並行して、発生におけるエピジェネティクス動態についても研究が進んだ。細胞間遺伝を担うものとしてDNAメチル化やヒストン修飾/ヒストンバリアントを中心に発生時間軸と細胞運命分岐に伴うエピジェネティクス研究が進められてきている[1, 9, 10]。しかしゲノム全体を覆うエピゲノム情報の網羅的解析は当初より極めて高価で、主流となる解析方法が次世代シークエンサーに置き換わった現在でも比較的高コストである。さらに多くの網羅的解析は巨大な情報のスナップショットに過ぎず、核内情報は時空間的な揺らぎや重要性の異なる多様なドメインから構成されるものであることを考えると、そのアウトプットはかなり不確実で不均一なものにならざるを得ない。たとえば一つのイベントに注目した場合、ゲノム上での解析対象を転写因子の活動とする場合、任意の細胞で働く転写因子の種類、結合部位の影響の大きさに適する時間解像度が必要と考えられるが、そこまで考慮した研究デザインを全ての試行に用いることはあまり現実的ではない。
こういった問題を解消していくためにまずは汎用的なエピジェネティック・マップを作成し共有することでエピジェネティクス分野の発展を促そうという動きが活発になり、2000年代から始まったENCODE project[11]、2010年代のNIH Roadmap Epigenomics Project[12]、IHEC(International human epigenome consortium)[13]など、相互に情報連携する大型の国際コンソーシアム/プロジェクトによるデータ集積が盛んになった。これにより得られた多くの情報はデータベースに蓄積され、プロジェクト終了後も多くの研究に利用されエピゲノム研究を牽引している(表1)。枠組みとなるこれらの大型プロジェクトの成果を基盤として最近ではより標的を絞ったデータセットの共有も始まっており、今後も各論的な共有リソースの広がりが期待される。
カテゴリ | 名称 | ウェブサイト | 備考 |
大型プロジェクト | ENCODE project | https://www.encodeproject.org/ | 転写調節エレメントの百科事典の作成を目指したプロジェクト。NIH Roadmapのデータも束ね、データ統合分析にも注力。 |
IHEC(International human epigenome consortium) | http://ihec-epigenomes.org/ | 様々な疾患や生命現象に関わるヒトエピゲノム地図の作成を目指した。 | |
NIH Roadmap Epigenomics Project | http://www.roadmapepigenomics.org/ | 基礎生物学と疾患研究の促進するためのヒトエピゲノム情報リソースの作成を目指した。幹細胞データが充実している。 | |
汎用データベース | GEO(Gene Expression Omnibus) | https://www.ncbi.nlm.nih.gov/geo/ | NCBI |
SRA(Sequnece Read Archive) | https://www.ncbi.nlm.nih.gov/sra/ | NCBI | |
ENA | https://www.ebi.ac.uk/ena/browser/ | EMBL-EBI | |
(シングルセル関連) | Single cell portal | https://singlecell.broadinstitute.org/single_cell/ | Broad institute |
Single cell Expression Atlas | https://www.ebi.ac.uk/gxa/sc/ | EMBL-EBI | |
SCPortalen | http://single-cell.clst.riken.jp/ | RIKEN-IMS | |
特化型データベース | NIEHS TaRGETII | https://target.wustl.edu/ | 多段階毒性物質曝露と転写のゲノムおよびエピゲノム調節因子 |
CommonMind | https://www.synapse.org//#!Synapse:syn2759792/wiki/69613 | 統合失調症および双極性障害に関するエピゲノムデータ | |
EWAS Open Platform | https://ngdc.cncb.ac.cn/ewas | DNAメチル化アレイに関するデータベース | |
ChIP Atlas | https://chip-atlas.org/ | ChIP-seq/ATAC-seqデータに関するデータベース | |
Mouse sci-ATAC-seq Atlas | https://atlas.gs.washington.edu/mouse-atac/ | マウスシングルセルATAC-seqに関するデータベース | |
統合型ゲノムブラウザー | UCSC Genome Browser | http://www.genome.ucsc.edu/ | ENCODEなどのデータが可視化され閲覧可能。 |
エピゲノムに関する主要なプロジェクトとデータベース。大型プロジェクトの紹介ページには解析パイプラインや実験プロトコールなどのリソースも集約されている。汎用データベースは論文などに利用されたデータ(rawデータ、processedデータ)がメタデータとともに格納されている。特化型データベースは手法や試料、疾患などテーマに沿ったデータを集約している。UCSC Genome Browserはあまりに有名であるが、ENCODEプロジェクトデータなどを連係し多くのデータが視覚的に閲覧可能なので改めて紹介する。
インフォマティクス技術を必要とするエピゲノム網羅的解析はもちろん生物学的機能の解明のための一つの道具ではあるが、データ取得からのエピゲノム解析は目的に対応した試料・方法の選択に高コストを要し手軽な題材とはいえない。前述したエピゲノムプロジェクトのアーカイブを含む公開データは、異なる目的から多角的に解析を行うことにより新しい観点を加える解析対象となり得ることから今日頻繁に再解析されて有効に利用されている。もちろん再解析ではより客観的に慎重にデータを精査する必要がある。特に、配列がそのまま解析対象となるゲノム配列情報解析とは異なり、エピゲノムデータの作成ではエピジェネティック修飾を「関連する配列情報」として置き換えて情報の取得を行うため、データ解析に際して手法による様々なノイズを理解する必要がある。主な解析ステップが多数のツールになっているので参考にされたい(表2)。さらに近年ではサンプルのスモールスケール化・シングルセル化手法への改良の傾向があり、細胞の正確な情報を得るための方法論によるデータの質の改善とそれに伴う新たな解釈・計算方法の改良など変化の速度は早い。
カテゴリ | 名称 | ウェブサイト | 備考 |
トリミング | Trimmomatic | https://github.com/usadellab/Trimmomatic | トリミング |
(アダプター配列などの除去とQC) | Cutadapt | https://github.com/marcelm/cutadapt | トリミング |
fastp | https://github.com/OpenGene/fastp | トリミングとQC | |
マッピング | Bowtie2 | https://github.com/BenLangmead/bowtie2 | マッピング |
(BAMの作成) | HISAT2 | https://github.com/DaehwanKimLab/hisat2 | マッピング |
bwa | https://github.com/lh3/bwa | マッピング | |
BAM以降のツール | MACS | https://github.com/macs3-project/MACS | ピークコール |
SICER | https://github.com/zanglab/SICER2 | ピークコールと後続解析 | |
HOMER | http://homer.ucsd.edu/homer/ngs/ | ピークコール、モチーフ解析など | |
SEACR | https://github.com/FredHutch/SEACR | CUT&RUNデータ用ピークコール | |
EChO | https://github.com/FredHutch/EChO | CUT&RUNデータ用フラグメント解析 | |
deepTools | https://github.com/deeptools/deepTools | BAMの解析、フィルタリング、描画など | |
DROMPAplus | https://github.com/rnakato/DROMPAplus | ChIP解析パイプライン | |
DNAメチル化解析 | Bismark | https://github.com/FelixKrueger/Bismark | マッピング、集計 |
methylpy | https://github.com/yupenghe/methylpy | マッピング、集計、比較解析 |
エピゲノム解析の多くはリードのゲノム上での位置情報を得ること(マッピング)で得られたBAMデータを解析・集計することによって行われる。ChIP-seq、CUT&RUN/CUT&Tagデータは結合部位を予想するピークコーラーがそれぞれ開発されているが、標的(使われる抗体に対する抗原)の違いからなるゲノム上での分布の違い(ピークデータとなるか、範囲データになるか)により適した集計方法を選択する必要がある。DNAメチル化データ(バイサルファイト法によるWGBS/RRBSデータ)は化学処理されたゲノム配列を想定したマッピングを行うため、その過程を含めたパイプラインが開発されている。
例えば、クロマチンがなくDNAへのアクセスが自由なゲノム領域を調べるオープンクロマチン解析はヒストン8量体とDNAの作るクロマチン単位のゲノム上の配置をDNA消化酵素(DNase-seq[14], MNase-seq[15])を使って間接的に解析する方法でかつては大量の試料を必要とした(図2)。近年はトランスポゾンを用いたATAC-seq(assay for transposase-accessible chromatin using sequencing)の登場により簡便さ・少数細胞サンプルへの応用が進んだ[16]。現在ではほぼATAC-seqが主流であるが、酵素自体のアクセシビリティやDNAに対する特性で得られる情報が異なることは、核内の実態を得られる情報のバリエーションとして留意しておきたい[16]。一方、ヒストン修飾/転写因子結合の分布解析であるChIP-seq法(クロマチン免疫沈降法+シークエンシング)も同様に大量の試料の固定と機械的/酵素的なクロマチン単位からの免疫沈降により、その高いバックグラウンドを持つデータに最適化されたピークコール法が開発されていた。近年では、少数細胞に対する分子分布解析法としてそれぞれMNaseとトランスポゾンを用いて固定されていないnativeクロマチン周辺の領域を切り取るCUT&RUN法[17]およびCUT&Tag法[18]、トランスポゾンとin situ transcriptionを活用するChIL-seq法[19]が開発された。このことにより手技も簡便化され、自動化に対応可能になっている(図2)。バックグラウンドの低い高感度のデータが得られるようになったことに対し新たにピークコール方法も開発/提案されているが[20, 21, 22]、観察しようとするイベントの頻度や滞留時間によりサンプル量とデザインも変わってくると考えられ、今後もより多くの議論を必要としている。興味深いのはオープンクロマチン解析と同様に酵素のアクセスするDNA断片サイズで結合部付近のクロマチン状態の情報が得られることで[22]、注目する領域についての多角的な情報にアクセスできるユニークな点があり今後も情報の解釈や実験方法の改良などで進展が期待される。
ヒストン修飾/転写因子の分布を解析するChIP-seqは核をヌクレオソーム単位に破砕したあと抗体による目的物の分別を行うのに対し、Cut&Run/CUT&Tagは核内へ侵入させた酵素によって必要な部分のみを切断/タグ付けするため、破砕による機械的な損傷や非特異結合が軽減され、バックグラウンドを低く抑えることができる。同様の酵素を用いて物理的なアクセシビリティの差をDNA断片の情報として取得するのがDNase/MNase-seq, ATAC-seqで、Cut&Run/CUT&Tagはそれらで利用されてきた酵素をさらに改良して局所活性化を可能にすることで実現化されている。
細胞機能との関連性と分子機構の連係の解像度を高める上でシングルセル解析はエピゲノム研究の最強のツールとなりうる[23]。ヌクレオソーム位置はヒストンとDNAの強い結合により安定化しており、ATPを必要とする酵素反応によって移動するため、実際にはかなり定量的なクロマチン位置情報が得られることから、シングルセルデータ取得プラットフォームに汎用化されている[24, 25]。CUT&Tag法のシングルセル化も先日報告され[26, 27]、修飾部分によるgenotypingなどユニークな再解析例も提示されている[27]。シングルセル解析でのエピゲノムデータは、RNA-seqと異なり1細胞に2本1組ずつしかないゲノム配列上のイベントのスナップショットとなるためイベント捕捉率の低さは否めず、より多くの細胞から得られた高出力でかつイベント頻度の少ないスパースなデータに対応した処理や解釈の方法論が必要とされる。
また、階層を超えた情報の連係を理解する上でシングルセルマルチオーム解析は最も重要なツールとなる。エピゲノムのシングルセルプラットフォームではRNA-seqとATAC-seqのマルチオームが現段階では最も汎用化されているが、転写伸長反応が一つの主要なエピゲノム書き換えメカニズムであることが明らかになりつつあることからエピゲノムとRNA-seqの組み合わせにも大きな可能性がある。実際に、初期胚で見られる新規のDNAメチル化パターンと転写の関連が予想されていたが[28]、シングルセルマルチオームによって解像度を高めることにより新規DNAメチル化の成立と転写の同時性が確認された[29]。また、幹細胞でもゲノム全体の新規DNAメチル化/脱メチル化反応の振動と転写の連動が観察されており、エンハンサーにおける動的なDNAメチル化状態を介して細胞運命に影響を与えることが示唆された[30]。これまでのバルク解析での結果によりDNMT1とpre-mRNAが結合し結果としてDNAメチル化活性を阻害することや[31]、新生RNAが転写活性化クロマチン修飾複合体の結合プラットフォームとして機能し得る可能性などが示されており[32]、転写活動がRNA産物の産生のみならずエピゲノム書き換えでも大きな役割を果たしている可能性があり、より定量的・時空間的な観察により転写の与える正確な影響を見ることができるかもしれない。もちろん複数の現象を観測しようとすることでデータの劣化、欠損が起こることをどのように補完していくか、どの方法を取捨選択するかの実験デザインの熟考が必要であることは変わらない。技術的に単一細胞でのエピゲノム解析とマルチオミクスが可能になることは核内イベントの解像度の向上を示し、エピゲノムの本質的な情報を得るための強力なツールとなることが約束されており、今後の技術向上のもたらす未来に大きな期待を寄せている。
複雑すぎる関係性を読み解く困難に対する拠り所となるのはやはり実際に再生産している生物の姿であり、生き物に興味を持つことがエピジェネティクス研究のよい導入になるのではないだろうか。何よりも自分の生物学的疑問を持つこと、そのためには恐れることなく生物学の世界へ足を踏み入れ今見えている世界とその未来を見ること、生物学の世界の言葉とインフォマティクスの言葉で何ができるのか考え続けることが大切と思う。今回紹介した技術がまだ存在しなかった頃から人々を魅了してきた現象はまだその全貌をあらわしていない。それを一緒に楽しんでいただければうれしい。
本稿は科研費18K08085の助成を受けたものである。
![]() |
小田 真由美 博士(獣医学)。異なる細胞タイプのそれぞれの最適化エピゲノム状態に興味があります。新しい技法・データで見えてくる世界を楽しんでいます。冷静と情熱のあいだ、繊細と大胆のあいだを柔軟に、が研究モットー。ウエット+ドライ両刀でいきたいですが、最近はドライに偏り気味。趣味はねこ。 |