2023 Volume 4 Issue 1 Pages 1-9
真核生物の遺伝子発現は、ゲノムに対する転写因子やヒストンの結合パターンによって時空間的に精密に制御されている。この発現制御機構を理解するため、筆者らはゲノム上のタンパク結合を調べるChIP-seqデータを網羅的に解析し、転写因子の結合とヒストン修飾をゲノムワイドに閲覧できるChIP-Atlas(https://chip-atlas.org)を開発している。最近では、ATAC-seqとBisulfite-seqデータを新たに統合し、転写調節領域のエピゲノム状態をより多面的に捉えられるようになった。本稿では、ChIP-Atlasを概観した後、創薬医学、再生医学、遺伝性疾患などの研究分野における実際の応用例を中心に紹介する。このように、ChIP-Atlasのナビゲーションに従い遺伝子転写制御ランドスケープを「旅する」というイメージを膨らませることで、より多くの読者の方がChIP-Atlasを活用した研究成果を生み出し、遺伝子の発現制御機構の解明や生命科学の発展に貢献できればと思う。
遺伝子の転写制御機構を探るため、DNAに結合する転写因子やヒストンへの化学修飾をゲノムワイドに解析するChIP-seq法が広く利用されている。高速シーケンス技術の目覚しい進歩により、代表的なモデル生物のChIP-seqデータが既に大量に蓄積されており、そのほとんどがNCBIなどの公共アーカイブから公開されている[1]。しかしながら、これらのサービスからはバイナリ形式の塩基配列生データ(SRA)しか取得できないことが多く、一般の研究者がこれを有効活用するためには、バイオインフォマティクスの知識と解析技術、豊富な計算資源が必要となる。そのため、この「宝の山」は実際に研究コミュニティによって十分に活用されずに死蔵されてきた。
論文などで報告されているChIP-seqデータを統合的に利活用するため、筆者らは数年前からChIP-Atlasというプロジェクトを立ち上げた[2]。このプロジェクトでは、6つの代表的なモデル生物について、20万件を超えるChIP-seq配列生データを公共アーカイブからダウンロードした後、リファレンスゲノムへのアライメントを行った。それに続いて、アライメントが統計的に集中しているゲノム領域を探索するためにピークコールを行った結果、同一領域に対する異なるタンパク質結合も含めた、延べ19億のタンパク質結合領域(タンパク質×ゲノム座標)が検出された(図1、表1)。全ての実験について、上記の解析が共通のパイプラインと一貫したパラメータによって行われていることがChIP-Atlasの大きな特徴である。ChIP-Atlasに収録の解析済み実験データは、NCBI SRAと同様のアクセッション番号(SRX)によって一元的に管理されており、ウェブサイト(https://chip-atlas.org)から公開されている。さらに、これらの実験データにはキュレーションを経たサンプルメタデータが添付されているため、ゲノム、転写因子名、細胞名などを用いたキーワード検索を行い、条件に合致した実験IDまで簡単に絞り込むことができる(図2A)。実験ごとに設けられている個別ページから、前述の解析パイプラインで得られたアライメントデータ(BigWig)とピークコールデータ(BED)をマウスクリックのみでダウンロード/可視化できる(図2B)。また、解析済みデータごとにURLを割り当てているため、コマンドライン上でもこれらに簡単にアクセスでき、データの一括ダウンロードなどに対応している(BigWig, https://chip-atlas.dbcls.jp/data/Genome/eachData/bw/Experimental_ID.bw; BED, https://chip-atlas.dbcls.jp/data/Genome/eachData/bedThreshold/Experimental_ID.Threshold.bed; 詳細はChIP-Atlasのドキュメンテーション [https://github.com/inutano/chip-atlas/wiki#downloads_doc] を参照)。
NCBI、EBI、DDBJなどのリポジトリより配列生データを取得した後、リファレンスゲノムへのアライメントとピークコールを順次に行う。
生物種 | ゲノムアセンブリ | ChIP-seq実験数 | ピーク数 |
ヒト | hg38, hg19 | 94,879 | 1,123,119,407 |
マウス | mm10, mm9 | 85,466 | 725,397,915 |
ラット | rn6 | 1,974 | 27,376,310 |
ショウジョウバエ | dm6, dm3 | 9,010 | 32,774,805 |
線虫 | ce11, ce10 | 4,114 | 7,308,659 |
出芽酵母 | sacCer3 | 12,640 | 1,231,380 |
合計 | 208,083 | 1,917,208,476 |
2015年の一般公開からの長い間、ChIP-Atlasは比較的に古いゲノムアセンブリ(hg19、mm9、dm3、ce10)にしか対応していなかった。2021年秋のアップデートより、hg38、mm10、dm6、ce11にも対応するようになったとともに、旧バージョンのデータも当分の間引き続き提供していく予定である。太字は新規に対応したリファレンスゲノムを示す。
(A)サンプルメタデータから個別の実験を検索するDataset Search機能。(B)実験の個別ページ。キュレーションを経たサンプルメタデータが記載されており、マウスクリックのみで解析済みデータの可視化およびダウンロードができる。(C, D)多くの実験データをまとめてゲノムブラウザ上で閲覧できるPeak Browser機能。設定画面上(C)で、実験タイプ、細胞名、抗原名による絞り込みを行った後、選択された実験のピークコールデータが自動的にゲノムブラウザのIGVにロードされる(D)。この機能で、ゲノムのどこにどの細胞で何が結合しているかについて概観できる。(E, F)一群の遺伝子/ゲノム領域への転写因子結合を調べるEnrichment Analysis機能。クエリ画面上(E)で、解析対象となる遺伝子群のGene symbolもしくは関心ゲノム領域の座標を数百個入力すると、そこに対する転写因子結合のエンリッチ度が計算され、その結果が統計的に有意な順で表示される(F)。
さらに、ChIP-Atlasは単に視覚的に理解が可能な解析済みデータを提供するにとどまらず、これらを全て統合してデータマイニングができる機能も備えている(図2C-F;ChIP-Atlasの詳細な使い方は『実験医学』誌を参照[3, 4])。これをフルに活用することで、例えば、ゲノム上の関心領域に結合がエンリッチする転写因子を特定できる。また、この解析は従来の転写因子結合モチーフによる「予測」ではなく、「リアルな」結合データに基づいて探索が行われる。次章では、この転写因子結合プロファイリング法が(1)薬物の作用機序解析、(2)ダイレクトリプログラミングを誘導する候補因子の選定、(3)遺伝病の発症メカニズムの解明に活用された実例を踏まえながら、遺伝子の転写制御ランドスケープをナビゲートするChIP-Atlasが幅広い研究分野に応用される可能性を紹介する。
医薬品の適正な使用は疾患の治療につながるが、一方でタバコやアルコールなどの環境因子は健康を害することがある。このように、医薬品や環境因子(本稿ではこれらをまとめて「薬物」と記述する)は我々の体に様々な影響をもたらすが、その分子機序が完全には明らかにされていない。その解明のため、今世紀以来、ビッグデータを活用したアプローチが注目されている。例えば、疾患罹患時と薬物投与時の遺伝子発現プロファイルの逆相関関係に着目した手法が薬効予測などに利用されている[5, 6]。これは例えば、疾患特異的に発現が異常に亢進する遺伝子を抑制する化合物を、疾患の潜在的な治療薬として候補づけるというコンセプトである。しかしながら、薬物投与がどのように遺伝子発現を変化させるか、という問いには未だ明確な回答がなく、薬物の作用機序へのさらなる理解には、遺伝子より上流の標的分子を特定することが急務である。薬物の作用標的は多岐にわたるが、筆者らは薬物摂動に応答する遺伝子群を統合的に制御するマスター転写因子を特定する手法を提案した(図3A)[7]。
提案手法への入力として、論文などで報告された、薬物の投与によって発現が有意に変動する遺伝子(薬物応答遺伝子)の情報を使用した。薬物応答遺伝子の情報は、Comparative Toxicogenomics Database(CTD)という数千の薬物と遺伝子発現の相関をキュレーションしたデータベースから取得した[8]。次に、ChIP-AtlasのEnrichment Analysis機能を使用し、1万件以上のヒト転写因子のChIP-seqデータに基づいて、薬物応答遺伝子の近傍(転写開始点± 5 kb)に特異的に結合がエンリッチする転写因子を特定した。これにより、遺伝子を介して薬物と転写因子の「関係の密接さ」が推定された。その後、スタンダードデータとして既知の薬物作用標的情報と照らし合わせた結果、本手法は薬効の発現に中心的な役割を担う転写因子を高精度に推定できることが示された。さらに、転写因子の関連疾患情報を利用することで、転写因子を介して薬物と疾患を関連づけたところ、薬物の適応可能疾患や潜在的な副作用が予測された。提案手法により、(1)シスプラチンはTP53ファミリーメンバーの抗腫瘍活性を促進するがMYCによる癌誘発を抑制すること、(2)TLE3促進とRELA抑制はレフルノミドが抗増殖・炎症活性を示す上で極めて重要であること、(3)CHD8はバルプロ酸誘発性自閉症に関与していることなどが推定された(図3B)。
提案手法は、薬物の作用メカニズムにおける転写制御機構の重要性を強調したことによって特徴づけられる。薬物応答遺伝子の情報さえあれば解析が可能であるため、候補化合物のスクリーニングでよく利用されているドッキングシミュレーションや教師あり学習などとは異なり、薬物の化学構造情報に依存しない。したがって、漢方薬や環境中の汚染物質など、化学構造が一意的に決定できない混合物の作用機序に迫る上で有用であると考えられる。このように、遺伝子発現制御を担う転写因子を中心とした薬物の作用機序を解明することにより、疾患の新たな治療法の開発や新規創薬標的分子の発見、既存薬の新たな適用や副作用リスクの仮説構築などにつながることが期待される。
ダイレクトリプログラミングを誘導する転写因子の推定ダイレクトリプログラミング(DR)とは、細胞に特定の転写因子(DR因子)を導入することで、iPS細胞などの多能性幹細胞を介さずに、他の細胞種に直接変換することをいう。例えば、マウスの皮膚線維芽細胞にHnf4aとともにFoxaを導入すると、肝細胞に類似した性質を持つ細胞への分化を誘導することができる[9]。これは、iPS細胞を経由した従来のリプログラミング技術に比べ、短時間かつ低コストで目的細胞を作製できるため、今後の再生医療にパラダイムシフトをもたらす革新的な技術として期待されている。DR因子の組み合わせ候補を決定するために、近年様々なin silico予測方法が開発されてきたが、DRの分子生物学的メカニズムに基づいた推定手法の確立が期待されている。
そこで、筆者らは九州工業大学の山西芳裕教授らとの共同研究により、クロマチン状態を規定するヒストン修飾パターンに加え、一群の遺伝子の発現をまとめて制御するマスター転写因子に着目した新規解析手法を提案した(図4A)[10]。提案手法はまず、凝集したクロマチン構造を緩めるパイオニア因子を推定するところから始まる。ChIP-Atlasに収録されているH3K4me、H3K9ac、H3K27acの全てのChIP-seqデータを縦覧し、活性化ヒストンマークが検出されないゲノム領域を決定した後、そこに結合がエンリッチする転写因子をパイオニア因子の候補とした。DRの誘導には、パイオニア因子のほかに、それによって弛緩状態となったゲノム領域に結合する転写因子(協調因子)も重要である。協調因子を探索するため、目的細胞で高発現する遺伝子の近傍領域や目的細胞特異的なエンハンサー領域に対する転写因子のエンリッチメントを評価し、統計的に有意な順に協調因子が候補づけられた。提案手法を用いた解析の結果、線維芽細胞から肝細胞、軟骨細胞、ニューロン、心筋細胞、膵臓細胞、小腸パネート細胞の6種類の目的細胞への直接転換を誘導するパイオニア因子と協調因子の組み合わせが推定された(図4B)。そこには、DR誘導活性を有することが実証されている既知の転写因子が数多く含まれており、予測の妥当性を確認することができた。
(A)提案手法のイメージ。(B)予測されたパイオニア因子と協調因子。オレンジは、先行研究でダイレクトリプログラミングを誘導することが実験的に証明されている転写因子を示す。臓器のイラストはTogoTV(© 2016 DBCLS TogoTV)より引用した。
このように筆者らは、ChIP-Atlasの大規模ChIP-seqデータをフル活用し、細胞の分化転換において(1)クロマチンの構造基盤を整えるパイオニア因子と(2)目的細胞の遺伝子発現制御を統合しその特徴を直接規定する協調因子を推定する手法を提案した。提案手法は、元細胞と目的細胞のオミクスデータ(エピゲノム、トランスクリプトーム)を入力するだけで、任意の細胞変換を扱うことができ、DRの実績が乏しい細胞種への応用も可能である。このことから、ChIP-Atlasをフル活用した提案手法は再生医療における細胞治療法の開発への貢献に繋がることが期待される。
遺伝性疾患の発症メカニズムの解明心房細動(AF)は不整脈の1つであり、心筋細胞の異常な電気的興奮が不規則な心拍を惹起する結果、動悸や息切れなどの症状をもたらす。高齢化に伴い、本邦におけるAFの有病率は増加の一途を辿っている。さらに、心機能の低下や血栓形成による脳梗塞などを引き起こす恐れがあるため、AFの発生機序を理解することは医学的・社会的に重要である。AFは生活習慣などの後天的要因に加え、遺伝的要因も合わさった多因子疾患であることが知られている。近年では、大規模なコホートデータを用いたGenome Wide Association Study(GWAS)解析により、多くの疾患感受性座位が同定されてきた[11]。しかしながら、多くの疾患感受性座位が遺伝子以外のノンコーディング領域に存在するため、これらがどうやって遺伝子発現を変化させ、疾患発症に寄与するかについては十分に理解されておらず、GWASの結果が実際の臨床診療や創薬現場に反映されにくいのが現状である。
そこで、筆者らは理化学研究所の伊藤 薫チームリーダーらとの共同研究により、ノンコーディング領域の感受性座位はなぜ疾患を引き起こすかという謎に迫った[12]。複数の人種を対象としたAFのGWASデータから同定された150の疾患感受性座位に対し、ChIP-Atlasを用いた転写因子結合エンリッチメント解析の結果、オーファン核内受容体のESRRGがAFの疾患感受性座位に最も結合がエンリッチした(図5)。その後、ESRRGによるAFの発症への寄与を検証するため、iPS細胞からの分化誘導で得られた心筋細胞(iPSCM)に対し、ESRRGの受容体活性を減弱させる逆作動剤を投与する実験が行われた。ESRRG阻害による遺伝子発現プロファイルを調べたところ、ESRRGを阻害したiPSCMでは、心筋に局在するイオンチャネルをコードする遺伝子群、およびサルコメアを構成する遺伝子群の発現量が有意に低下した。さらに、iPSCMの機能的変化について、ESRRG阻害群では自発的な拍動数が減少する傾向が見られ、顕著な不規則性と収縮時間の延長が認められた。同様に、正常な心筋収縮に対応するCa2+トランジェント間隔の延長も認められ、徐脈の治療に用いられるイソプロテレノールの投与による拍動速度の増加はESRRG阻害により抑制された。このような拍動数や活動電位持続時間の変化は、実際に心房細動患者由来のiPSCMの表現型とよく類似している。これらの結果から、ESRRGは心筋細胞において、イオンチャネルを含む標的遺伝子の発現を制御することにより、心房細動の発症に決定的に関与していることが実験的に証明された。
筆者らが参画した本共同研究は、疾患の発症に寄与する転写因子を絞り込むための統合解析によって仮説を形成し、さらにそれを分子生物学・生理学実験によって実証するという2つのフェーズによって成り立っている。これは、ChIP-Atlasの活用を起点とし、ドライ解析とウェット実験を有機に融合させたバイオDX研究の好例であったと言える。今後はほかの疾患のGWASデータを同様に解析することで、さらに多くの疾患の成り立ちへの理解が深まっていくことが期待される。
ChIP-Atlasは2015年の一般公開以来、生命科学分野における新たな情報インフラになるべく、転写制御ランドスケープの複雑な構造を明らかにすることを目的に開発・維持されてきた(ChIP-Atlas 1.0)。しかしながら、遺伝子の発現制御は転写因子とヒストン修飾だけでは十分に説明ができず、クロマチンアクセシビリティやDNAのメチル化状態も重要なパラメータである。タンパク質がアクセス可能なクロマチン領域とゲノムDNA中のメチル化シトシンを検出するために、ATAC-seqとBisulfite-seq技術がそれぞれ広く利用されており、この数年間で大量のデータが蓄積されている。
そこで、ゲノム上のタンパク結合だけでなく、クロマチンアクセシビリティやDNAメチル化状態も同時に理解するために、筆者らは2022年にChIP-Atlasの大規模アップデートを敢行した(ChIP-Atlas 2.0)[13]。6つのモデル生物について、ChIP-seqとほぼ同様の解析パイプラインを使用し、既報のATAC-seqおよびBisulfite-seqデータを全て再解析した後、それをウェブ上で公開した(図6A-C)。ChIP-Atlas 2.0を活用すれば、従来、多大なコストと時間を要したシスエレメントの同定をin silicoで進めることができ、なおかつそこに結合する転写因子まで理解できるようになった(図6D)。さらに進化を遂げたChIP-Atlasは、転写制御ランドスケープ全体を俯瞰するガイドブックとして、遺伝学やゲノミクス分野に限ることなく、エピゲノムや遺伝子発現制御全般を扱う研究領域にも大きく貢献できよう。
(A)ATAC-seq(左)とBisulfite-seqデータ(右)の解析パイプライン。(B, C)ChIP-Atlas収録実験数の統計。実験数の時間別推移(B)と生物種ごとの実験数(C)をそれぞれ示す。2023年現在、ChIP-Atlasには、新たな実験データが約3,000件/月のペースで追加され続けている。(D)ChIP-Atlas 2.0を用いたin silicoシスエレメント推定。ゲノムブラウザIGV上で、マウス精原細胞を用いた実験のアライメントデータとピークコールデータを並べている(a, d:ChIP-seq;b, e:ATAC-seq;c, f:Bisulfite-seq)。複数の実験によって確認されている、オープンクロマチン(e)かつ低メチル化(f;ピンク)になっているハイライト領域には、活性化エンハンサーが存在する可能性が高い。さらに、そこには様々な転写因子が結合し、周囲の遺伝子発現を制御していることがこの1枚の図で推察できる。図6は参考文献[13]より引用し、一部改変を行なっている。
ChIP-Atlasプロジェクトは主にJST/NBDC統合化推進プログラムおよび科研費(22J15229)より支援を受けて開発された。データ解析は、情報・システム研究機構 国立遺伝学研究所が有する遺伝研スーパーコンピュータシステムを利用した。
![]() |
鄒 兆南 2023年、京都大学大学院医学研究科博士後期課程修了。博士(医科学)。同年より学振PD。研究を始めた当初は発生生物学実験により、母胎環境の変化が胚発生を擾乱するメカニズムの解明に取り組んだ。研究を進めていくうちに、情報科学の手法によるバイオビッグデータの統合解析から、環境因子や医薬品の作用機序をデータドリブンに探索できる可能性に気づき、Dryに転向。学位取得に伴い、再びWetの楽しさを思い出し、現在色々と悩み中。 |
沖 真弥 |