JSBi Bioinformatics Review
Online ISSN : 2435-7022
Review
Advances in Chromatin State Analysis Tools and Their Applications
Seohyun Lee Ryuichiro Nakato
Author information
JOURNAL OPEN ACCESS FULL-TEXT HTML

2025 Volume 6 Issue 1 Pages 51-59

Details
Abstract

バイオインフォマティクス分野の飛躍的な進展により、大規模なエピゲノムデータの解析が可能となった。その中で、複数のエピゲノム情報を用いて各ゲノム領域の状態を網羅的に推定する「クロマチン状態解析」の研究が盛んに行われている。クロマチン状態(chromatin state)は遺伝子発現や細胞機能の制御に密接に関与しており、その解析手法の進化はエピゲノム研究の重要な課題である。本稿では、クロマチン状態解析に関する最新の技術をレビューし、これらの手法の技術的な側面に着目し、その詳細を整理する。クロマチン状態の分類、進化的解析、時間的変化の解析、機能特性データの統合、クロマチン状態配列情報を活用したアプローチなど、多角的な解析手法の進展を取り上げ、それぞれの特徴と応用可能性について議論する。さらに、我々の開発した新規手法であるChromBERTについて述べ、本手法がクロマチン状態のより精緻な理解にどのように寄与するかを紹介する。

1.はじめに

生命情報を運ぶDNAはヒストンタンパク質に巻き込まれ、長い分子のままの状態ではなくコンパクトな構造として存在する[1]。クロマチンはDNAとヒストンタンパク質の複合体であり、DNAの効率的な収納の機能を果たしつつ、遺伝子発現を調節する重要な機能を持つ[2]。クロマチンは、遺伝子が活発に発現している緩やかに構造化された状態(ユークロマチン)と、遺伝子発現が抑制されている高度に凝縮された状態(ヘテロクロマチン)に大きく分類される[3, 4]。さらに、クロマチンの構造とヒストンタンパク質の化学修飾のパターンによって定義される「クロマチン状態(chromatin state)」を用いることで、より詳細な生物的な機能を調査することが可能である[5]。ヒストンタンパク質の末端アミノ酸領域(ヒストンテール)にはメチル基およびアセチル基などが修飾することがあり、それらの修飾はクロマチン構造を変化させ、近傍遺伝子の発現に様々な影響を及ぼす[6]。例えば、H3K4me3はヒストンH3の4番目のリジンのトリメチル化を意味し、一般に転写活性化に関連している。この修飾が存在する領域では、遺伝子が活発に転写されることが多い[7]。一方、ヒストンH3の27番目のリジンのトリメチル化を意味するH3K27me3は、抑制的な役割を果たし、遺伝子発現の抑制に関与することが知られている[8](図1(a))。このように各々のヒストン修飾についてその機能が研究されており、それらの知見とChIP-seq法[9]で得られた複数のヒストン修飾の濃縮情報データを組み合わせることで、各領域の「エピゲノム的特性」を全ゲノム的にラベリングすることができる。この「エピゲノム的なラベリング情報」をクロマチン状態と呼ぶ[10](図1(b))。

図1:ヒストン修飾とクロマチン状態の定義

(a)ヒストンタンパク質における化学修飾の概念図。(b)5種のヒストン修飾の濃縮状態の組み合わせによって定義される「クロマチン状態」のラベル。

ヒストンテールにおける化学修飾の種類、位置および化学残基の数に基づいて、100種類以上のヒストン修飾が確認されており、理論的にはクロマチン状態は非常に多くの種類に定義され得る[11, 12]。しかし、機能が強く相関しているヒストン修飾も多く、一般的なクロマチン状態解析では全てのヒストン修飾を考慮する必要はない。ヒトのさまざまな細胞や組織におけるエピゲノム情報を体系的に収集してクロマチン状態の包括的なマップを作成したROADMAPプロジェクトでは、H3K4me1、H3K4me3、H3K36me3、H3K27me3、H3K9me3の5種類のヒストン修飾の濃縮度パターンに基づき、全ゲノム領域を15種類のクロマチン状態でラベリングした[13]。このように、大規模データベースプロジェクトによるエピゲノム情報の蓄積と、情報学的なクロマチン状態推定法(隠れマルコフモデル(HMM)を用いるChromHMMなど)の登場により[14, 15]、多くの細胞種でクロマチン状態データが利用可能になり、クロマチン状態の研究が大きく加速している。すなわち、DNA塩基配列を入力とするゲノム情報解析に対し、クロマチン状態を一次元配列として扱うエピゲノム情報解析が利用可能になり、エピジェネティックな詳細をより深く探ることが可能になった。

表1に先端的なクロマチン状態解析ツール群を一覧としてまとめた。本稿ではこれらのツールについて紹介し、それらの更なる応用と最近のエピゲノム研究への影響を探る。

表1:クロマチン状態解析ツールの一覧。

ツール名 主な特長
CSREP グループ単位のクロマチン状態アノテーションツール
FitCons2 進化的視点からのエピゲノム情報解析ツール
ChromGene 遺伝子単位のクロマチン状態アノテーションツール
ChromTime 時間的変化を考慮したクロマチン状態解析ツール
ChromActivity 機能特性化データを統合したクロマチン状態解析ツール
EpiAlign クロマチン状態の圧縮的な配列情報を用いた解析ツール
ChromBERT クロマチン状態の自然言語処理(NLP)を活用した解析ツール

2.最新クロマチン状態解析ツール

2−1.グループ単位のクロマチン状態アノテーション

クロマチン状態解析において、単一サンプルのデータだけでは、組織や個体全体のエピゲノム的特性を正確に把握することが難しい。そのため、関連する細胞種や組織間のクロマチン状態の統一的な特徴や相互関係を捉えるため、グループ全体を考慮した(group-wise)手法が求められる(ここでの「グループ」とは、生物学的に関連するサンプル群を指す)。このようなグループ単位での解析を通じて、クロマチン状態の集団的なパターンを明確にし、異なる細胞種間での一貫性や差異を評価することができるようになる。

CSREP[16]は、サンプル群のクロマチン状態データを入力として受け取り、各ゲノム領域における状態を確率的に推定したうえで、グループ全体を代表するクロマチン状態マップを生成するために開発された手法である。このツールは、教師あり機械学習モデルである多クラスロジスティック回帰分類器(Multiclass logistic regression classifier)のアンサンブル学習を用いて、同一グループ内の他のサンプル群の情報を利用しながら各サンプルのクロマチン状態を予測する。このアプローチは、サンプル間でのデータの相関やパターンを利用して予測精度を向上させ、各位置でのエピゲノム状態を確率的に割り当てるという点で優れている。

CSREPでは、ゲノムを200塩基対のビンに分割し、それぞれのビンに割り当てられるクロマチン状態を予測するために、サンプル群のデータを統合する。トレーニングには全ゲノムの10%の領域が選ばれ、精度と計算効率のバランスが取られている。グループ内の他のサンプルのクロマチン状態データをモデルの入力に使用し、出力として各状態の確率を示す行列を生成する。この行列は各ゲノム領域における状態割り当ての確率を表し、確率が最も高い状態をもとに代表的なクロマチン状態マップを作成する。

CSREPはグループ間の比較にも対応しており、2グループ間のクロマチン状態の差異を特定することができる。具体的には、各状態における割り当て確率の差を計算し、これを用いてグループ間の変化を表すスコアを出力する。このスコアは各ゲノム領域におけるクロマチン状態の変化を定量化し、どの状態が増加または減少しているかを示す。こうした特長により、CSREPはクロマチン状態におけるグループ間の生物学的な差異を高解像度で特定し、グループ全体の情報を効率的に要約することができる。

CSREPの意義は、単なる頻度ベースの要約を超えた、データの相関情報を活用した要約能力にある。この手法により、クロマチン状態マップをより正確にまとめ、かつグループ間の違いを詳細に解析することができる。論文では、多様な細胞種や組織のクロマチン状態マップを用いた解析により、CSREPが生物学的に重要なパターンや特徴を抽出する上で有用であることが示されている。ただし、本手法は複数サンプルの比較解析に適しており、単一サンプルの解析を目的とする場合には、他の手法と併用することが望ましい。

2−2.進化的視点からのエピゲノム情報解析

クロマチン修飾の解析は遺伝子発現の制御機構を理解するだけでなく、エピゲノム情報が進化の過程でどのように維持され、どのような機能的役割を果たしているのかを明らかにする上でも重要である。進化的制約が加わったエピゲノム領域はその生物種の生存に必要な機能を持つ可能性が高いことから、エピゲノムマークの進化的保存性を分析することで、機能的に重要なクロマチン状態を特定することができる。

GulkoとSiepelはクロマチン状態を含むエピゲノムデータがヒトゲノムの機能についてどの程度の情報を提供するかを評価する手法を提案した[17]。この研究では、塩基配列情報から得られる自然選択の痕跡をゲノム機能の指標として使用し、ゲノム上の特定領域が持つ機能的重要性に対する進化的制約の影響を解析するための情報理論的フレームワークを構築した。

この研究で提案されたFitCons2アルゴリズムは、エピゲノムデータやゲノム注釈情報をもとに各ゲノム部位を特徴づけ、進化的制約に基づいた適応度スコア(FitCons2スコア)を割り当てる手法である。入力にはエピゲノム情報(RNA-seqによる転写活性やDNase-seqによるクロマチンアクセシビリティ、ChromHMMによるクロマチン状態)及び、コーディング領域やスプライス部位などのゲノム注釈情報が用いられる。本手法では二分決定木を利用し、入力された特徴情報に基づき、情報量の増加が最大となる分割規則を再帰的に選択するかたちでゲノム部位をクラスタリングする。プロセスが進行し、改善が一定の閾値以上にならなくなった時点で終了する。最終的に生成されたK個のクラスターは、各部位が持つエピゲノムの特徴と進化的制約の関連性を反映する。これにより、ゲノム全体から進化的適応度に関する情報が体系的に抽出される。得られたクラスター群について、進化的な自然選択の影響を測定するINSIGHTと呼ばれる確率的フレームワーク[18]を適用し、塩基特異的フィットネス効果(FitCons2スコア)を定量的に測定する。

論文で使用されたデータは、ROADMAP Projectから取得したRNA-seqやDNase-seq, ChromHMM等のエピゲノムデータ、及びヒトと霊長類(チンパンジー、オランウータン、アカザル)のゲノム配列比較データである。さらにコーディング領域やスプライス部位などのゲノム注釈情報も用いられ、それぞれが進化的制約の評価に寄与している。

この研究は、ゲノム機能解析および新しいデータ収集設計に対する指針を提供するだけでなく、細胞型特異的な遺伝子調節要素の同定および疾患関連変異予測にも寄与する。特に、FitCons2スコアを用いることで、ゲノムの各部位が進化的適応度に与える影響を詳細に評価し、進化の観点からその機能的重要性を測定することが可能となった。ただし、FitCons2は主に進化的保存性を基盤とする解析であるため、進化的に新しい要素や細胞特異的な調節領域の検出には補完的な手法を用いる必要がある。

2−3.遺伝子単位のクロマチン状態アノテーション

一般的なクロマチン状態解析はゲノム全体を対象に行われる。しかし、遺伝子の発現は単なる個々のゲノム領域のエピゲノム状態だけでなく、遺伝子領域全体としてのエピゲノム環境と密接に関係している。そのような環境を捉えるには遺伝子単位でのクロマチン状態解析が有効である。

ChromGene[19]は遺伝子単位でクロマチン状態をモデル化する新たな手法であり、HMMを基盤として遺伝子のエピゲノム注釈を提供する。ChromGeneはHMM混合モデルを使用し、遺伝子本体およびその周辺領域にわたるエピゲノムマークの組み合わせと位置的パターンを解析する。これにより、従来の位置ベースの解析手法であるChromHMMとは異なり、各遺伝子に対して単一のクロマチン状態注釈を生成することが可能である。ChromHMMはゲノム全体を位置ごとにクロマチン状態に分割することに優れている一方で、遺伝子全体に基づく解析や注釈の生成は難しい。ChromGeneは遺伝子全体および周辺領域のデータを統合することで、発現量や遺伝子間の比較を含む遺伝子の全体的な特性を解析可能にし、より生物学的に妥当な情報を提供できる。ただし、遺伝子単位の解析に特化しているため、プロモーターやエンハンサーなど局所的な領域の詳細な解析には他の手法との併用が求められる。

この論文では、127種類の細胞型を対象に、10種類のヒストン修飾データおよびDNase-seqデータを用いて解析を行った。その結果12種類の注釈が生成され、高発現状態を示すもの(「strong_trans」や「strong_trans_enh」など)、抑制的状態を示すもの(「bivalent」や「quiescent」など)、さらにはジンクフィンガー遺伝子に特有の「znf」などの状態を抽出することができた。また、ChromGeneの注釈は遺伝子単位で行われるため、長大な遺伝子が解析上過剰に評価され、短い遺伝子の情報が埋没するといった偏りを抑えることができる。その結果、細胞種特異性やGene Ontology用語、がん関連遺伝子セットとの関連性がより明確に示されるようになった。

さらに、ChromGeneは高いpLIスコア(probability of Loss-of-function Intolerance score)を持つ遺伝子群を同定する能力にも優れている。pLIスコアは、スコアが高い遺伝子ほど、変異によって機能を失うことが致命的になることを示す指標である。この研究では、「trans_cons」や「strong_trans_enh」といった注釈が、高いpLIスコアを持つ遺伝子と顕著に関連付けられていることが示された。このようにChromGeneは、従来の発現量や遺伝子長では捉えきれない機能的な重要性を示す遺伝子の同定にも有用であることが示された。ChromGeneは従来の位置ベースの注釈手法であるChromHMMを補完しつつ、遺伝子レベルでのエピゲノム解析において新たなリソースとなる可能性を秘めている。

2−4.時間的変化を考慮したクロマチン状態解析

クロマチン状態を含むエピゲノム情報は動的なものであり、細胞状態とともに変化することが知られている。特に細胞の分化や発生過程、リプログラミングにおいてクロマチン状態の変化が重要な役割を果たす。しかし、既存の多くの解析手法は単一時点でのデータを仮定した比較に留まり、時間経過に伴うエピゲノムマークの空間的な変化(あるエピゲノムマークのゲノム上での拡大、縮小など)を直接捉えるように設計されていない。この課題を解決するために、時系列クロマチン状態データを十分活用する新規手法が求められていた。

FizievとErnstは、そのようなエピゲノムマークの時空間的変化をモデル化するための計算手法ChromTimeを開発した[20]。ChromTimeは時系列的なエピゲノムデータ(主にヒストン修飾)を入力とし、エピゲノムマークのピーク領域が時間軸に沿ってゲノム上で拡大(ピーク幅が広がる)、縮小(ピーク幅が狭まる)、または安定するかを予測する。

ChromTimeの解析は2つの主要なステップで構成されている。第一ステップでは、ゲノム全体を固定長のビンに分割し、各時点の入力データにおいて、エピゲノムマークが有意に濃縮されているゲノム領域(ブロック)を同定する。この過程では、時間的に一貫したピーク領域を決定するために、ピーク強度に基づいて統計的に有意な領域を抽出する。第二に、ブロック内でのピーク幅(ピーク境界)の動態を確率的混合モデルを用いて推定する。このモデルは、ピーク境界が拡大、縮小、または安定である可能性を計算し、それぞれの動態を高精度に識別する。

論文では、ChromTimeはマウスのT細胞発生、ヒトの幹細胞リプログラミング、ヒト胎児脳発達など、さまざまな時系列データを用いた実験を行っている。その結果、領域的に拡大・縮小するエピゲノムマークが転写因子の結合や遺伝子発現の増加・減少と関連することが明らかになった。また、複数のエピゲノムマーク間で動態が相関する場合や、転写開始点近傍での一方向的な拡大や縮小が転写方向と強く関連することが示されている。

ChromTimeのもう一つの重要な利点は、エピゲノムマークのゲノム領域依存的な動態を方向性という観点から解析できる点にある。特に、転写開始点近傍で観察されるピークの向き非対称な拡大や縮小が、転写機構や調節因子の動作と関連している可能性を示唆した。このことは、クロマチン状態の空間的変動と遺伝子調節や細胞状態の変化との関連を詳細に解析する道を開く。

以上のように、ChromTimeは時系列データを用いてエピゲノムマークの時空間的動態を体系的に解析するための強力なツールである。タイムポイント数が十分でないデータセットには適用が難しい可能性があるが、いずれにせよこの手法はエピジェネティックな遺伝子調節の動態を解明する上で重要な知見を提供し、多様な生物学的機構の理解を深めるものである。

2−5.機能特性化データを統合したクロマチン状態解析

従来のクロマチン状態解析はヒストン修飾やDNAアクセシビリティといったエピゲノムマークをもとにゲノム領域の機能を推定する。しかし、観測されたこれらのマークが必ずしも転写活性を直接反映しているとは限らない。そこで、これらのエピゲノムデータに加え、CRISPRスクリーニング(特定の遺伝子配列を編集し、その影響を網羅的に解析することで遺伝子の機能を明らかにする手法)やSTARR-seq(DNA配列のエンハンサー活性を直接測定することが可能な高感度レポーターアッセイ)のような機能特性データ(functional characterization data)を統合することで、より正確な遺伝子調節領域の予測が可能になると考えられる。そのために提案されたのがChromActivityである[21]。

ChromActivityは、複数のエピゲノムデータと機能特性データセットを統合し、ゲノム全体の調節活性を注釈付けするフレームワークである。本手法では、以下の2つの出力を生成する。(1)ChromScoreHMM:ヒストン修飾の領域依存的組み合わせパターンに基づいてゲノムを注釈付けし、機能的調節領域の特徴を捉える。(2)ChromScore:機能特性データセットごとに学習したモデルを統合し、ゲノム全域における遺伝子調節活性のスコアを算出する。

この研究では、127種類のヒト細胞・組織タイプにおいてChromActivityを適用し、さまざまな機能特性データを基に予測スコアを計算した。その結果、エピゲノムデータのみを用いた既存手法と比較して、機能特性データを統合することでより精度の高い予測が可能となることが示された。また、Plasmid-basedアッセイ(MPRA, STARR-seq)とCRISPR-basedアッセイ(CRISPR-dCas9)では予測パターンが異なることが明らかとなり、それぞれの実験手法が持つ偏りが反映されることを示した。ChromScoreHMMは、機能特性データに基づく遺伝子調節活性をより正確に反映したゲノムアノテーションを提供する。また、ChromScoreの予測は、既存の手法(GenoNet, FunLDA, GenoSkyline Plus など)よりも高い精度で遺伝子調節領域を特定できることが確認された。

機能特性データの取得には実験コストがかかるため、データの網羅性や整合性が解析結果に影響を与える可能性がある。とはいえ、本手法はヒトゲノムの大規模な制御領域アノテーション、疾患関連変異の機能的影響の解析(特にエンハンサーやプロモーター領域の変異が遺伝子発現に与える影響の評価)、遺伝子調節ネットワークの解明(クロマチン状態と転写制御の相互作用の解析)といった応用が期待されるものである。

2−6.クロマチン状態の配列情報を用いた解析方法

クロマチン状態を配列データとして扱うアプローチも最近登場し、より直感的な解析方法として注目を集めている。

2−6−1.クロマチン状態の圧縮的な配列のパターン比較分析

EpiAlign[22]は、複数細胞種のクロマチン状態パターンを動的計画法(Dynamic Programming)を用いて比較し、局所的な一致パターンを同定する手法である。このツールは、クロマチン状態配列の長さや頻度の変動を考慮に入れることで、多様なエピゲノムデータの比較に対応している。

EpiAlignの手法は以下の手順から成る。まず、ChromHMMなどを用いて得られた各細胞種のクロマチン状態データについて、各クロマチン状態を異なるアルファベット(例:a、b、c...)で符号化し、「クロマチン状態配列」を得る。ここで、連続した同じ状態は圧縮され、たとえば「abbcc」は「abc」のように変換される。この圧縮処理により、クロマチン状態の連続性に基づく情報の一部が失われる可能性もあるものの、長く繰り返される同一のクロマチン状態がアラインメント結果を支配することを防ぎ、配列の変化パターンに焦点を当てることができる。次にEpiAlignは、Smith-Watermanアルゴリズムを一部改良した動的計画法を用いて局所的アラインメントを実施する(図2)。このアルゴリズムは、以下の特徴を持つ:

(1)一致、ミスマッチ、ギャップのスコアリング:アラインメントの各位置で、一致、ミスマッチ、ギャップの状態に基づいてスコアを計算する。特に、各クロマチン状態にはその重要性を表す重みが割り当てられており、希少なクロマチン状態にはより高い重みが与えられる。この重みに基づき、一致スコアは重みとして計算され、ミスマッチとギャップにはそれぞれペナルティが課される。

(2)動的計画法によるスコア計算:アラインメントスコアは、動的計画法のマトリックスを用いて逐次的に計算される。このマトリックスの各要素は対応する部分配列間の最適スコアを格納し、各ステップで前の要素から最適なスコアを選択して更新される。この過程で、圧縮された配列が利用されるため、計算効率が向上している。

(3)局所アラインメントの優先:大域アラインメントではなく局所アラインメントを行うことで、長く連続的な部分一致パターンを保持する。

図2:動的プログラミング手法を用いたクロマチン状態配列解析ツールEpiAlignの解析フロー。

EpiAlignは、「垂直アラインメント」と「水平アラインメント」という2つの解析を提供している。垂直アラインメントでは、異なる細胞種や組織における同じ遺伝子領域のクロマチン状態配列を比較し、それらの保存性や分岐を解析する。一方、水平アラインメントでは、同一細胞種内で頻繁に出現するクロマチン状態パターンを探索し、生物学的に重要な領域を同定する。

EpiAlignを用いた解析により、脳特異的な遺伝子であるSTMN4は脳組織間では高いクロマチン状態の類似性を示す一方、心臓組織とは大きく異なるパターンを持つことが明らかになった。また、性差に関連するエピゲノムの特徴を抽出する解析や、ヒトとマウスの相同遺伝子間で保存されたクロマチン状態を特定する解析を通じて、クロマチン状態配列情報の有用性を示した。

2−6−2.自然言語処理を用いたクロマチン状態配列パターン分類及びモチーフの抽出

クロマチン状態配列についてさらに詳細な特徴抽出を行うために、我々はChromBERTと呼ばれる新規のクロマチン状態解析法を開発した[23]。ChromBERTは「生物学的な機能を持つ領域特異的なクロマチン状態配列のパターン」を配列モチーフとして抽出することを目的としており、自然言語処理のための深層学習基盤であるBERT(Bidirectional Encoder Representations from Transformers)モデルを用いてクロマチン状態データを解析する。BERTモデルはDNA配列ベースの既存法であるDNABERTでも使用されている[24]。

前述したEpiAlignと同様に、ChromBERTもクロマチン状態をアルファベットで符号化し、配列データとして扱うことで、クロマチン状態データを文字列情報として解析可能にしている。しかしEpiAlignと異なり、ChromBERTではクロマチン状態の連続した配列を圧縮せず、そのままの順序情報を維持したまま解析する。このアプローチにより、配列のコンテキストを考慮しながら解析を行うことが可能となり、より詳細なクロマチン状態のパターン認識が可能になる。

ChromBERTはBERTモデルを用いて、全ゲノム領域を対象に一般的なクロマチン状態配列のパターンを事前学習する(pre-training、図3)。このように学習されたBERTモデルはゲノム領域ごとのクロマチン状態の特徴を捉えられるようになる。この事前学習モデルを用いて、特定のゲノム領域におけるクロマチン状態の特徴(すなわちモチーフ)を捉えるためのファインチューニング(fine-tuning)を行う。例えば、高発現遺伝子のプロモーター領域と低発現遺伝子のプロモーター領域を比較し、転写活性に関与するクロマチン状態配列のパターンを特定する。ファインチューニングで得られたattention matrixから高い注意スコア(attention score)を持つ部分配列をモチーフとして抽出する。

図3:ChromBERTの解析フロー

BERTモデルを用いて事前学習とファインチューニングを行い、得られたパターンを動的時間伸縮法を用いてグルーピングすることで、クロマチン状態モチーフ(群)を得る。

ここで一つの問題点は、このように特定されたクロマチン状態配列集合には、互いによく似たパターンが多く含まれることである(“GGGBBAAAA”と“GGGGBBBAA”など)。このような類似パターンは元となるChIP-seqデータの技術的ばらつき(たとえば個々のピークの強度)に由来する可能性が高いことから、ひとつのモチーフとして圧縮されることが望ましいと我々は考えた。そのためChromBERTでは、動的時間伸縮法(DTW; Dynamic Time Warping)と呼ばれるアラインメント法を利用して、そのような類似パターンをグルーピングする。DTWは動的計画法の一種であるが、パターンの長さの差異に対してペナルティを与えないため、パターンの長さに依存せず異なる長さの類似配列をグルーピングすることができる。これにより、グループ内のクロマチン状態配列集合をひとつの代表的なモチーフとして統合し、より意味のあるクロマチン状態のパターンの違いを捉えることが可能となる。論文では実際にいくつかのファインチューニングタスクを実行し、クロマチン状態パターンからプロモーター領域の活性などを捉えられることを示した。

ChromBERTは、従来のクロマチン状態解析手法では捉えられなかった配列情報のコンテキストを保持したまま、クロマチン状態のパターンを解析・分類する新たなアプローチを提供する。ただし、BERTベースのモデルは高精度な解析を可能とする反面、学習に多くの計算資源を要するため、計算環境への依存度が高い点には留意が必要である。

今後我々はこのChromBERTを用いて、遺伝子制御機構と相関する詳細なクロマチン状態パターンの特定や、細胞種特異的なエピジェネティックモチーフの発見、さらには疾患関連変異とクロマチン状態の変化の解析などの応用を目指している。また、我々はゲノム三次元構造を考慮したクロマチン状態解析法もこれまで提案しており[25]、そのようなマルチオミクスデータを統合することによって、特定の三次元構造に関連するエピゲノムモチーフの同定や、クロマチン構造と転写制御の関係の解明など、更に詳細なエピゲノム解析が可能になると期待される。

3.結論と展望

本稿では、クロマチン状態解析に関する最新の手法を紹介し、それらの特徴や応用可能性について議論した。クロマチン状態の分類、進化的解析、時間的変化の解析、機能特性データの統合、配列情報の活用といった多角的なアプローチが進展し、それぞれの手法がエピジェネティクス研究の発展に寄与している。今後はこれらの手法を更に統合・発展させ、より包括的なクロマチン状態の解析モデルを構築することが必要になる。クロマチン状態解析の技術がさらに洗練されることで、エピジェネティクスの理解が深まり、疾患研究や個別化医療への応用が一層加速されることが期待される。

References
著者略歴

イ ソヒョン
2018年東京大学大学院理学系研究科物理学科博士課程修了(理学博士)。博士課程では細胞内の小胞輸送における運動パターンを数値的に解析する研究に従事。その後、生命現象の根幹を成す遺伝子およびエピジェネティクスの研究へと関心を広げ、データ解析における機械学習の応用に興味を持つ。現在は、自然言語処理技術を活用したエピゲノムデータ解析ツールの開発に取り組んでいる。
中戸 隆一郎
2010年京都大学大学院情報学研究科博士課程修了(情報学博士)。東京大学定量生命科学研究所の助教を経て、2019年より大規模生命情報解析研究分野を主宰(講師)。2022年7月より准教授。次世代シークエンサーを用いたゲノム・エピゲノムデータ解析の研究に従事し、大規模マルチオミクス解析のための新規手法の開発と情報解析による知見獲得を一貫して続けている。

 
© 2025 Japan Society for Bioinformatics

This article is licensed under a Creative Commons [Attribution-NonCommercial-ShareAlike 4.0 International] license.
https://creativecommons.org/licenses/by-nc-sa/4.0/
feedback
Top