Seibutsu Butsuri
Online ISSN : 1347-4219
Print ISSN : 0582-4052
ISSN-L : 0582-4052
Review
Uncovering Human Genome Structure Through Data-driven Approaches
Ryuichiro NAKATO
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2025 Volume 65 Issue 3 Pages 135-139

Details
Abstract

データ駆動型ゲノム解析では,主に次世代シーケンサーから得られる全ゲノム情報を利用し,これまでの生物学的知識に頼ることなく新規の作業仮説を探索する.本稿ではその実例として,筆者らが最近発表した大規模マルチオミクス解析によるデータ駆動的なゲノム立体構造制御機構の解析事例を紹介する.

Translated Abstract

Data-driven genomic analysis uses genome-wide data to explore novel hypotheses without relying on prior biological knowledge. Its benefits are maximized when the data are large and multi-omics, known as large-scale multi-omics analysis, which has the potential to reveal unexpected regulatory mechanisms. This review focuses on our recent work using multi-omics data with next-generation sequencing assays to understand transcriptional regulation via chromatin folding in a data-driven manner. The results highlight the variation in genomic physical interactions regulated by the context-specific combination of cohesin and its associated factors, including an insulator factor CTCF.

1.  データ駆動型ゲノム解析

ゲノムは生命の遺伝情報と生命機能の総体である.そこでは種々のタンパク質や機能性RNAなどの因子が相互に連携し,プロモーター・エンハンサー領域などにおけるエピゲノム修飾やゲノムの立体構造制御などに関与することで,転写・複製・修復などの諸機能を適切に制御している.ゲノムという一つの場においてこれらの因子と制御機構がどう協調・統合されているかを体系的に理解することは極めて重要な課題である.

次世代シーケンサー(Next-generation sequencer,以後NGSと表記する)を用いた様々なアッセイにより,種々のゲノム情報を一度の実験で全ゲノム的に観測することが可能になった(図1).ChIP-seqを用いればDNA結合タンパク質の結合部位や各種ヒストン修飾部位を網羅的に得ることができ,RNA-seqは非コード遺伝子を含めた全遺伝子の発現量を測定する.Hi-Cと呼ばれる手法を用いれば,細胞核内におけるゲノムの立体構造の全体像を捉えることができる.この「全ゲノム的に」ゲノム情報を捉えるという点がNGSアッセイの最大の強みであり,着目していない遺伝子やゲノム領域も含めて観測できることから,「事前に予想していなかった面白い発見」の期待値が増す.このように,事前知識や仮説に頼ることなくデータそのものから新規の(多くの場合,予想外の)発見を目指すアプローチをデータ駆動型解析と呼ぶ.事前知識に基づき考えられた仮説を確かな実験系の構築により検証する仮説検証型解析に対し,データ駆動型解析は検証する価値のある新たな仮説を探索することを主な目的とする.砂漠での宝探しに例えるなら,仮説検証型解析は実際に地面を掘って宝を探すことに相当し,データ駆動型解析は宝のありそうなポイントに地図上で目印をつける「ダウジング」の役割を果たす.筆者が取り組むデータ駆動型ゲノム解析は,砂漠(ゲノム)上に潜む未発見の宝(新規のゲノム機能部位や,そこで機能する因子)を各種NGSデータ群を用いて探索する,というようなものである.

図1

NGSを用いたアッセイの例と,その可視化図.

データ駆動型解析の「未知の要素をデータから捉える」という性質から解析データセットはより広範かつ大規模であるほどよく,従ってサンプル数の多い大規模解析において真価を発揮する.筆者は特にエピゲノムと立体構造を介した転写制御に興味があり,Hi-C(ゲノム立体構造情報)とChIP-seq(エピゲノム),RNA-seq(遺伝子発現)を組み合わせた「大規模マルチオミクス解析」に取り組んでいる.本稿ではその実例として,筆者らが最近発表したゲノム立体構造解析に関するマルチオミクス解析の取り組みを紹介したい1).第二節ではまずHi-Cで観測されるゲノム立体構造を概説し,第三節で立体構造を制御する因子について述べる.その後,第四節で筆者らの研究を紹介し,最後に今後の展望について述べる.なお,データ駆動型ゲノム解析そのものについての要点や実際的な注意点については筆者も過去に総説を書いているので2),併せて参考にされたい.

2.  Hi-Cで観測されるゲノム立体構造

Hi-Cを用いたこれまでの研究により,細胞核内においてゲノムは階層的な立体構造を取り,規則的に折りたたまれていることがわかってきた(図23),4).まず,各染色体はその立体的近接関係に基づき大きく2つに区分される.これはコンパートメントA・Bと呼ばれ,それぞれ活性・非活性ゲノム領域に大まかに対応する.より詳細に立体構造を観察すると,各コンパートメントはTAD(topologically associating domain)と呼ばれる数百kbp~数Mbp程度の長さを持つ立体相互作用のまとまりに区分される.すなわち,TAD内部では立体相互作用が高頻度に認められるが,TAD間の相互作用はまれである,というような構造単位が存在する.遺伝子レベルのスケールでは,エンハンサー・プロモーター相互作用に代表されるクロマチンループ(物理的に近接して相互作用する2つのゲノム部位.以後ループと表記)が存在する.ループは通常TAD内に存在しており,TADを超えるループは多くないとされる.これら立体構造の各階層はそれぞれ異なる機構によって制御されており,関与する因子群も異なると考えられている3)

図2

Hi-Cで観測される階層的ゲノム立体構造.上が概念図,下がHi-Cで得られるコンタクト行列上で観測されるパターン.文献3より改変.

この立体構造に異常があると遺伝子の発現パターンに異常が生じ,その結果がんなどの疾患の要因になり得ることが報告されている4).一方,実験によりTAD構造を全ゲノム的に欠失させても遺伝子発現に大きな影響がないことが種々の生物種を用いた実験で示されており5),6),TAD構造の機能的重要性に関しては明らかでない点も依然として多い.

3.  ゲノム立体構造を制御する因子

間期においてゲノム立体構造の制御に中心的な役割を果たす因子として,コヒーシンとCTCFというタンパク質が知られている7),8).コヒーシンはクロマチンループ・TAD形成に必要である一方,コンパートメント形成には負の作用を持つ(コヒーシンの機能欠失はコンパートメント構造の強化につながる).CTCFはループ・TAD形成に関与しており,コヒーシンやCTCFを機能欠失させた細胞ではTADやループ構造が大幅に消失する5),9).コヒーシンがゲノムを巻き込みながらゲノム上をスライドし,CTCF結合部位に遭遇した時点で止まり,ゲノムからリリースされる,というサイクルを繰り返すことでTADが形成されるという「ループ押し出しモデル」はこの現象をよく説明できるため広く支持されている10)

一方,コヒーシンの機能の詳細は不明点も多い.第一に,活性ゲノム領域においてループ押し出しによるTAD形成とクロマチンループ形成による遺伝子制御をどのように同時に果たしているのかは明らかではない.第二に,コヒーシンの機能発現にはCTCFの他,コヒーシンローダーやアンローダー,アセチル化因子など複数の関連因子との相互作用が重要であるが,それらの因子がこれらの立体構造形成及び発現制御においてどのように協調的に(あるいは独立に)寄与しているのかは明らかでない.たとえばコヒーシンによるクロマチンループ形成は必ずしもCTCFを必要としない11).コヒーシンがゲノム上で様々な異なる役割をどのように同時に果たしているのか,それぞれの機能において相互作用する関連因子は何なのかについて,完全には理解されていない.

4.  コヒーシン関連因子の大規模マルチオミクス比較

かかる観点から筆者らは,ヒトRPE 細胞を用いてコヒーシンとその関連因子群(ローダーやCTCFなど)を枯渇させたサンプルを作製し,それぞれのサンプルからエピゲノム・遺伝子発現・立体構造データから成るマルチオミクスデータを生成し,大規模なマルチオミクス比較解析を実施した.本研究の重要な点は,コントロール株との比較によって各因子の枯渇の影響を調べるのみならず,因子間で枯渇の影響の類似性と相違を比較する点にある.これにより,立体構造制御におけるこれら因子群の協調的,あるいは独立の機能を推定することを目指した.このために筆者らは,CustardPyという新規の立体構造比較解析ツールを構築した.このツールは,ノックダウンの影響を多サンプル間で比較し,多面的にサンプル間類似度を調査する.また,その影響のパターンに基づいてゲノム領域をクラスタリングすることができる.本研究では観測された立体構造変化と遺伝子発現・エピゲノム変動の関係性を明らかにするため,マルチオミクスデータを生成し比較した.枯渇効率が100%ではないことから厳密な機能推定は難しいが,因子間での枯渇効果の類似性を評価するうえでは十分であると判断した.実験の中で様々な知見が得られたが,本稿では「データ駆動的に得られた結果」として2点紹介する.

立体相互作用の「絶縁度」を表す指標であるインシュレーションスコア(Insulation score)12)により,サンプル間でのTADの欠失パターンの類似性を評価することができる.全てのTAD境界領域をインシュレーションスコアに基づき分類した結果,6種のサブグループに分類された(図3).図3aは各サンプルにおけるインシュレーションスコアの分布を示しており,コントロールに対して分布が上部にあればTAD境界の喪失(2つのTADが1つに融合される),下にあればTAD境界の獲得(1つのTADが2つに分裂する)を意味する.この図を見ると,枯渇によって実際にTAD境界の喪失・獲得の2パターンが存在し,しかもそのパターンにはコヒーシン依存的なものとCTCF依存的なものが別に存在することがわかった.たとえば(ii),(iii)のグループではそれぞれコヒーシン特異的にTAD境界の喪失・獲得が起きており,そこではCTCF枯渇の影響は微小である.図3bに実際のTAD境界サブグループの例を示す.この図では,コヒーシン(Rad21),ローダー(NIPBL),アンローダー(WAPLとPDS5A),インシュレーター(CTCF)及びアセチル化因子(ESCO1)を欠失させたサンプルをコントロールと共に示している.これらの結果は,TAD及びTAD境界の制御はゲノム上で一様ではなく,異なる因子によって制御される複数の機構が存在することを示唆している.更に,これらのTAD境界サブグループと因子枯渇によって得られた発現変動遺伝子を比較した結果,「(iii)コヒーシン依存的に新たに獲得されるTAD境界」の周辺に発現変動遺伝子が有意に存在することがわかった.一般にTADの喪失と遺伝子発現変動には直接的な相関は見られないとされるが6),TADのサブグループを考慮することで遺伝子発現と相関のある領域を抽出することが可能であることが明らかになった.

図3

(a)6つのTAD境界サブグループ.各因子の枯渇後にTAD境界が失われた領域,獲得された領域を示す.(b)染色体21番の24 Mbp-32 Mbp領域の可視化.上:コントロール細胞の相互作用.黒三角,青丸はそれぞれTAD,ループを示す.下:枯渇サンプル(抜粋)におけるインシュレーションスコアの可視化.赤で示される領域がTAD境界に相当する.(i-iii)で示すTAD境界は(b)の分類に対応する.文献1より改変.

筆者らはまた,TAD間の長距離相互作用の変動にも着目した.興味深いことに,コヒーシン枯渇サンプルにおいて特定の領域におけるTAD間相互作用の大幅な減少が認められた(図4a).これはコンパートメントA・B間の相互作用に該当するが,図右側のコンパートメントA領域との間ではそのような顕著な減少は観察されず,「左右非対称な」TAD間相互作用変動になっている.CTCF枯渇サンプルではより左右対称な変動パターンを示していることとは対照的である.この左右非対称な相互作用の減少は3節で説明した「コヒーシン枯渇によるコンパートメントの強化」では説明できないものであり,コヒーシンの枯渇効果がTAD内のエピゲノム状態と相関しているのではないかと考えられた.これを検証するため,全てのTADをChIP-seqで得たヒストン修飾データをもとに注釈付けしたうえで,TAD間相互作用の枯渇効果をもとにTADペアを分類した(図4b).その結果,コヒーシン(Rad21)及びローダー(NIPBL)の枯渇により失われる相互作用は主に活性ゲノム領域とヘテロクロマチン(H3K9me3)との間であり,抑制マーカーH3K27me3領域は明確には含まれないことがわかった(図4c-d).更に,このような遠距離相互作用においてはコヒーシンとローダーの間で枯渇効果の違いが見られた(クラスタ4).TADやループの喪失という文脈ではコヒーシンとローダーの枯渇効果はほぼ同一であることを考えると,この違いは興味深い.ループ押し出しモデルを仮定するならば,コヒーシン枯渇ではゲノム上でコヒーシンが一様に減少するのに対し,ローダーの枯渇ではコヒーシンロード頻度の減少により,「ロードされたコヒーシンが遠距離に到達する前にリリースされる(遠距離相互作用の減少)」ことを反映している可能性がある.

図4

(a)コヒーシン(Rad21),ローダー(NIPBL),CTCF枯渇後の立体相互作用変動をlog2比で表したもの.黒矩形で示した領域が左右非対称な相互作用の喪失を示す.下部のA/Bはコンパートメントを示す.(b)TADの注釈付けの概要.(c)クラスタ化されたTADグループにおける,各サンプルにおける相互作用の変動(log2比).(d)各TADグループとエピゲノムマークとの相関.文献1より改変.

5.  まとめと今後の展望

本稿ではデータ駆動型解析の例として,筆者らの論文からTAD境界解析と遠距離相互作用解析について紹介した.Hi-Cを用いた立体構造解析において,サブコンパートメント解析13)のように単一サンプルから詳細なゲノム分割を行う試みは存在したが,複数サンプルの枯渇効果をもとにゲノムを特徴づける手法は存在しなかった.また,Hi-Cを用いたこれまでのコヒーシン研究では限られた数の因子に焦点を当てており5),9),関連因子群の相互作用の全体像が把握できていなかった.筆者らの大規模マルチオミクス比較解析により,コヒーシン及び関連因子の機能はより文脈依存的(context-specific)であり,その機能を調査するうえで複数因子の枯渇効果をもとにゲノムをサブグループに分類した調査が有効であることが明らかになった.一方,本研究はsiRNAを用いた枯渇を用いていることから,オフターゲット効果などを一部捉えている可能性は依然残っている.より詳細な調査のためには,オーキシンデグロン法を用いた他の論文データとの比較による整合性の評価が今後必要である.

ゲノム立体構造研究の更なる進展のためには,生物物理学との融合研究が極めて重要であると筆者は考えている.本稿の冒頭でも述べたように,データ駆動型解析は新たな仮説を探索するために用いられる.本研究でも様々な興味深い新規仮説を得ることができたが,それらの仮説を検証するための実験が今後必要である.特に,ゲノム立体構造は細胞核内で常に変動しているが,多数の細胞の平均的構造を観測するHi-Cではそのゆらぎを捉えることができない.この検証において,超解像度顕微鏡でのライブイメージングなどを用いたクロマチン構造の直接的な観測が重要なアプローチとなる14),15).また,ポリマーシミュレーションを用いた立体構造モデリングは,ゆらぎを含めた動的な立体構造モデルを計算機上で検証する強力な手段である16).NGSデータ分析とこれらの実験結果がしっかりと噛み合った時,真にインパクトフルな成果が得られると考えられる.読者の皆さんにはぜひ本分野の最先端に挑戦してほしいと思っている.

筆者らも本研究から得られた立体構造モデルに理論的な解釈を与えるため,ポリマーシミュレーションを用いたモデリングにトライしている17).筆者らが現在用いているシミュレーションツールPHi-C18)はHi-Cデータを入力に最小限の熱力学的仮定を置いたモデルをベースに観測データを説明する最も尤もらしい時空間的立体構造を推定するというものであり,これはポリマーシミュレーションを用いたデータ駆動型解析と言うことができる.また,近年では深層学習を用いてゲノム配列やエピゲノム情報からゲノム立体構造を予測する手法も提案され始めている.これらの手法は現時点では依然として精度や分解能の限界があり,ゲノム立体構造の完全な再現には至っていないが,このような手法をも取り入れていくことにより,より高度なエピゲノム・遺伝子発現と立体構造との相関解析が可能になるだろう.

謝辞

RPE細胞を用いた立体構造解析の論文は,東京大学の白髭克彦教授,坂田豊典博士,坂東優篤博士との共同研究によって達成されました.また,PHi-Cの実験は理化学研究所の新海創也博士との共同研究によるものです.この場を借りて御礼申し上げます.

文献
Biographies

中戸隆一郎(なかと りゅういちろう)

東京大学定量生命科学研究所准教授

 
© 2025 by THE BIOPHYSICAL SOCIETY OF JAPAN
feedback
Top