逆イジング法の生命情報データ解析への応用

福永 津嵩

doi:10.11234/jsbibr.2020.1

Abstract

大規模な生命情報データの表現方法として、サンプルを行、計測した各要素を列とする行列形式は典型的な表現方法である。またこの行列データから相関関係や依存関係にある列のペアを検出する解析は、一般的なデータ解析手法であるといえる。この相関関係や依存関係を定量化する手法として、相関係数や相互情報量といった指標がよく利用されるが、これらの指標は擬似相関や偽陽性を多く検出する危険があることが知られている。近年では、このような偽陽性を防ぐための手法として生成モデルに基づくアプローチが利用されており、特にデータのとる値が離散(カテゴリカル)である場合は逆イジング法と呼ばれる。本総説では、この逆イジング法のモデルとパラメータの学習方法、およびタンパク質構造解析を中心とした生命情報データ解析への応用例について紹介し、今後の展開について議論する。

１．はじめに

高速シーケンス技術を始めとする計測技術の進歩によって、多数のサンプルから多様なオミクスデータを取得する研究が様々な分野で行われている。これらの大規模データを表現する方法として、サンプルを行、計測した各要素を列とする行列形式はデータの自然な表現方法であり、一般的に広く用いられている。たとえばオーソログテーブルは、生物種を行、オーソログを列とした行列データとして表現されている。このような行列データ解析において、相関関係・依存関係にある独立ではない列のペアを検出する解析は、典型的なデータ解析手法である。オーソログテーブルの場合、相関関係・依存関係にあるオーソログペアの検出解析は系統プロファイル法と呼ばれ、機能未知のオーソログの機能推定やタンパク質相互作用推定などに利用されている［1, 2］。たとえば図1Ａのようなケースでは、オーソログBとオーソログDが各生物種において全く同一の出現パターンを示しており独立ではないため、機能的に関係する可能性が高いと見積もられる。

　この相関関係・依存関係を定量化する方法として、相関係数や相互情報量といった指標が良く用いられる。これらの指標は簡単に計算することができるという長所がある一方、対象とする列のペアのデータだけから計算される「局所的」な指標であるため、擬似相関や偽陽性を多く検出する危険があることが知られている。たとえば図1Ｂのようなケースにおいて、AとBおよびAとCが相関関係にある時、本来関係のないBとCの間でも高い相関係数が得られるという問題が生じる。そのため近年では、このような偽陽性を防ぐための手法として、全ての列の情報を同時に考慮したもとで、2つの列間の依存関係を定量化する「大域的」な指標が提案されている。この方法では、まず2つの列間の依存関係の強さを意味するパラメータを考え、そのパラメータを全ての列のペア分含んだ、サンプルデータの生成モデルを考える。そして機械学習を用いてデータからそのパラメータを学習し、その学習されたパラメータを列のペア間の依存関係の指標として捉える。

図１

　（A）系統プロファイル法の模式図。行は生物種を表し、列がオーソログを表す。

　（B）　擬似相関の模式図。丸に囲われたアルファベットは要素、赤い実線は相関関係があるペア、黒い点線は擬似相関が検出されたペアをそれぞれ表す。

　データの取る値が連続である場合には、その生成モデルはGaussian graphical modelなどで表現可能であり、生命情報データ解析においても遺伝子発現ネットワーク解析やメタゲノムデータの情報解析などに利用されている［3］。一方データの取る値が離散（カテゴリカル）である場合、その生成モデルはイジングモデル（データの取る値が二値の場合）やポッツモデル（データの取る値が多値の場合）として定式化される。この時、本総説では、このデータの値が離散（カテゴリカル）である場合のパラメータ学習問題を逆イジング法と呼ぶ。逆イジング法は、2006年にE. Schneidmanらによって神経活動データの解析で利用されて以来、生命情報データ解析で広く利用されてきた［4］。特にタンパク質の立体構造予測・相互作用予測においては必要不可欠の技術となっており、様々な応用研究が展開されている。本総説では、逆イジング法の基本モデルとその学習方法、そして生命情報解析における広い応用例を紹介し、今後の展開について議論する。

２．逆イジング法のモデルと学習方法

　まず逆イジング法のモデルを簡単に紹介する。サンプル数をN、要素数をLとしたN×Lの行列データDを考える。ここで、D_i,jはi行j列目のデータを意味し、Q個の離散値のうちいずれかの値をとるものとする。この時、列iにおいて要素xが現れる相対頻度をf_i（x）、列iと列jにおいて要素xと要素yが共起して現れる相対頻度をf_i,j（x,y）と定義すると、これらの値は次の式で計算できる。

f i ( x ) = 1 N ∑ n = 1 N δ ( D n , i , x ) {f} rsub {i} left (x right ) = {1} over {N} sum from {n=1} to {N} {δ left ({D} rsub {n,i} , x right )}

f i , j ( x , y ) = 1 N ∑ n = 1 N δ ( D n , i , x ) δ ( D n , j , y ) {f} rsub {i,j} left (x,y right ) = {1} over {N} sum from {n=1} to {N} {δ left ({D} rsub {n,i} , x right ) δ ( {D} rsub {n,j} , y)}

　ただしxおよびyはQ個の離散値のうちのいずれかの値とし、またδ（D_n,i,x）はD_n,iとxが等しい時のみ1を返し、そうでない時には0を返す関数とする。あるサンプル（x₁,…,x_L）について、そのサンプルを生成する生成確率P（x₁,…,x_L）を考える。この時逆イジング法では、その同時確率分布が次の等式制約を満たすものとして確率モデルを与える。

P i ( x ) = f i ( x ) {P} rsub {i} (x)= {f} rsub {i} left (x right )

P i , j ( x , y ) = f i , j ( x , y ) {P} rsub {i,j} left (x,y right ) = {f} rsub {i,j} left (x,y right )

　ここでP_i（x）およびP_i,j（x,y）は、先の同時確率分布の列iおよび列iと列jについての周辺化確率である。任意のxおよびyに対してこの等式制約を満たすことを考えると、全ての事象の確率の和が1になる必要から、実質的な条件式の数は L ( Q − 1 ) + L ( L − 1 ) 2 ( Q − 1 ) 2 L left (Q-1 right ) + {L left (L-1 right )} over {2} {(Q-1)} ^ {2} である。しかしながらこれらの等式制約だけでは確率分布が定まらないため、さらにこの等式制約の下で、次式のエントロピーを最大化する確率分布としてサンプルを生成する確率分布を定義する。

S = − ∑ ( σ 1 , … , σ L ) ∈ Ω P ( σ 1 , … , σ L ) ln P ( σ 1 , … , σ L ) S= - sum from {left ({σ} rsub {1} ,…, {σ} rsub {L} right ) ∈ Ω} {P left ({σ} rsub {1} ,…, {σ} rsub {L} right ) ln P left ({σ} rsub {1} ,…, {σ} rsub {L} right )}

　ここでΩは考えうる全てのサンプルの集合とする。このような確率分布の定義方法は最大エントロピー法と呼ばれる［5］。本問題は等式制約付き最適化問題であることから、ラグランジュの未定乗数法で解くことが出来るため、サンプル（x₁,…,x_L）の生成確率P（x₁,…,x_L）はそのラグランジュ乗数h_i（x）およびJ_i,j（x,y）を用いて次の形式で書くことができる。

P ( x 1 , … , x L ) = 1 Z exp ( ∑ i = 1 L h i ( x i ) + ∑ 1 ≤ i < j ≤ L J i , j ( x i , x j ) ) P left ({x} rsub {1} ,…, {x} rsub {L} right ) = {1} over {Z} exp left (sum from {i=1} to {L} {{h} rsub {i} left ({x} rsub {i} right )} + sum from {1≤i<j≤L} {{J} rsub {i,j} ( {x} rsub {i} , {x} rsub {j} )} right )

Z = ∑ ( σ 1 , … , σ L ) ∈ Ω exp ( ∑ i = 1 L h i ( σ i ) + ∑ 1 ≤ i < j ≤ L J i , j ( σ i , σ j ) ) Z= sum from {left ({σ} rsub {1} ,…, {σ} rsub {L} right ) ∈ Ω} {exp left (sum from {i=1} to {L} {{h} rsub {i} left ({σ} rsub {i} right )} + sum from {1≤i<j≤L} {{J} rsub {i,j} ( {σ} rsub {i} , {σ} rsub {j} )} right )}

　この時、J_i,j（x,y）の値が大きいほど、列iと列jの間のxとyは依存関係にあることを意味している。またZは規格化定数であり、考えうる全てのサンプルについてその出現確率を足し合わせると1になることを保証するものである（分配関数とも呼ばれる）。この時、h_i（x）およびJ_i,j（x,y）の値を求めることが本モデルのパラメータ推定問題となる。このように導出したモデルは、統計力学におけるイジングモデル（Q＝2）またはポッツモデル（Q＞2）と同一のモデルとなる。また、変数が離散値を取り、かつ全ての変数間が隣接しているとしてモデル化したマルコフ確率場（MRF）とも同一のモデルである。特にイジングモデルの時は、全ての変数間が隣接しているボルツマンマシンとみなすこともできる。

　ここで解析的にそのパラメータを計算しようとすると、規格化定数Zを計算する必要が生じる。しかしながら、Zを厳密に計算するためには取りうるデータのQ^L個の組み合わせを全て考慮する必要がある。よってLが大きい時には、その組み合わせ数が膨大になり厳密な計算を行うことができない。それゆえ、最尤推定などに基づく様々な近似的パラメータ学習方法がこれまでに提案されてきた。ただし、学習すべきパラメータが大変多いため、尤度をそのまま最大化するとデータにオーバーフィットする危険性がある。そのため、L₁ノルムやL₂ノルムといった正則化項を加えた上でパラメータ推定を行い、オーバーフィットを防ぐことが多い。なお、最尤推定などをそのまま適用するとパラメータ数は LQ + L ( L − 1 ) 2 Q 2 LQ + {L left (L-1 right )} over {2} {Q} ^ {2} 個存在することに注意が必要である。この数は先に得た条件式の数よりも多いために、このままではそのスケーリングに曖昧性が存在する。そのため、たとえば ∑ x h i ( x ) = ∑ x J i , j ( x , y ) = 0 sum from {x} {{h} rsub {i} (x)} = sum from {x} {{J} rsub {i,j} left (x,y right ) =0} といった条件を更に加えることでその曖昧性を除去する必要がある（このような条件を加えても、サンプルの同時分布は変化しない）。

　最尤推定の考えに基づいてパラメータを推定する方法として最も直接的な方法は、MCMCサンプリングを用いる方法である［6, 7］。この方法ではまずパラメータをランダムに初期化し、そのパラメータに基づいてMCMCサンプリングによってデータを多数生成する。そして、その生成されたデータ頻度から計算されるP_i（x）やP_i,j（x,y）が、実データから観測されるf_i（x）やf_i,j（x,y）とどの程度異なるかを計算する。その後、そのずれを利用して尤度が大きくなるようにパラメータのアップデートを行う。そしてアップデートされたパラメータに基づいて、再びMCMCサンプリングによってデータを生成する。このMCMCサンプリングとパラメータのアップデートをパラメータが収束するまで繰り返し、最終的に収束した解を推定解とする。この方法は高精度にパラメータを推定可能である一方で、多数のサンプリングを必要とするために計算に大変時間がかかるという問題がある。

　MCMCサンプリングよりも高速な手法として、擬尤度最大化法が良く用いられている［8, 9, 10, 11, 12］。この方法では、目的関数として対数尤度 ∑ n = 1 N ln P ( D n , 1 , … , D n , L ) sum from {n=1} to {N} {ln P( {D} rsub {n,1} ,…, {D} rsub {n,L} )} を最大化する代わりに、近似的に対数擬尤度 ∑ n = 1 N ∑ i = 1 L ln P ( D n , i | D n , − i ) sum from {n=1} to {N} {sum from {i=1} to {L} {ln P( {D} rsub {n,i} mline {D} rsub {n,-i} )}} を最大化する。ただし、D_n, _－_iはDのn行目のうちi列目を除いたL－1列とする。すなわちP（D_n,i|D_n, _－ _i）は、i列目を除くL－1個の値が与えられた時にi列目の値が生成される確率を意味する。ここで各確率の規格化定数の計算を考えると、この近似によって全列を同時に考える必要がなくなるため、取りうるデータの組み合わせ数がわずかになる。そのためその規格化定数は容易に計算可能となり、高速にパラメータ推定を行うことができるようになる。なおこの擬尤度最大化法は、データがイジングモデル／ポッツモデルから生成されており、かつデータが限りなく多く存在するならば、その推定パラメータが真のパラメータと一致することが知られている。このような性質は、統計学の分野では一致性と呼ばれる。一方で、データ数がそれほど多くない場合にはMCMCサンプリングほど高い推定性能を持たないことが実験的に報告されている［13］。

　その他のパラメータ推定手法として、適応的クラスター拡張法［14, 15, 16］や平均場近似法［17, 18］、最小確率流法［19］などが提案されている。しかしながらこれらの手法はいずれも精度と速度の間にトレードオフが存在する。また、高速な代わりに推定精度が低い方法（平均場近似法や擬尤度最大化法など）であっても、特に強い依存関係にあるペアについては高精度で検出できるという報告も存在する［7, 13］。そのため、自らが適用したいデータセットのサイズや問題設定に応じて、どの手法を用いるべきか選択する必要がある。モデルや学習方法の詳細については［3, 13, 20］などをご参照いただきたい。

３．タンパク質の立体構造及び機能解析への逆イジング法の応用

　逆イジング法の生命情報解析への応用例としてもっとも盛んに行われている研究は、タンパク質立体構造解析への応用である。この解析では、アミノ酸配列のマルチプルアライメントデータを、各アミノ酸配列が行、各カラムが列である行列データであるとみなし、行列の各要素はギャップを含めた21文字のうちのどれか1つを取る離散的なデータであると捉えた上で逆イジング法を適用する。ここでタンパク質の立体構造を考えると、各アミノ酸が他のアミノ酸とは独立に進化するとは考えにくく、特に立体構造上近接する部位は互いに依存して共進化していることが期待される。このことから逆に、逆イジング法によって依存関係にあるカラムのペアを抽出すると、その部位はタンパク質立体構造内のコンタクト部位となることが期待される。逆イジング法を利用した構造解析手法はDCA（Direct Coupling Analysis）やEC（Evolutionary Coupling）とも呼ばれ、本総説では今後この解析手法をDCAと呼ぶこととする。

　DCAはM. Weigtらにより2009年に初めて提案された［21］。提案当初は、相互作用することがあらかじめわかっているタンパク質のペアが与えられた時に、実際にコンタクトするアミノ酸同士を高精度に推定する手法として提案された。その後、相互作用するタンパク質のペアが未知の状態からDCAを用いて相互作用するペアを予測する方法が開発されるなど、DCAを用いたタンパク質相互作用の研究は盛んに進められた［22, 23, 24, 25, 26, 27］。現在では、DCAに基づいた、大腸菌プロテオームレベルでの大規模な相互作用予測の結果が発表されている［28］。また相互作用予測のみならず、DCAを利用したタンパク質の立体構造予測についても多くの研究がなされている。この方法はD. Marksらにより2011年に初めて提案され［29］、DCAにより予測したコンタクト部位の情報とフラグメントアセンブリ法などの構造予測手法を組み合わせることで、アミノ酸配列のみから高精度に立体構造を予測することが可能である［30, 31, 32］（図2Ａ）。またDCAは、タンパク質の構造研究のみならず、RNAの立体構造予測やRNA-タンパク質相互作用予測にも応用されており、タンパク質の構造解析と同様高い性能を示すことが報告されている［33, 34, 35］。なおM. WeightとD. Marksの両名は2010年代を通して逆イジング法の生命情報解析研究を牽引してきた研究者であり、現在でも逆イジング法に基づく論文を多く発表している。

　しかし、DCAを利用して立体構造予測・相互作用予測を行うためには、そのマルチプルアライメントにおいて多くのサンプル数（アミノ酸配列の数）が必要であるため、あらゆるアミノ酸配列に対して適用できるわけではないという問題点が存在する。近年では、大規模なメタゲノムデータの中からアミノ酸配列のホモログを多数集めることでサンプル数を増やす方法［36］や、網羅的な配列変異実験を行い、その際に機能を失わなかった配列をサンプルに加えることでサンプル数を増やす手法［37］などが提案されており、DCAを適用できるアミノ酸配列数を増やそうとする試みが進められている。特に後者は、ある系統群特異的に存在するタンパク質であるため、自然界に存在するアミノ酸配列だけでは原理的にDCAを適用できないようなケースにおいても有効であると期待されている。

図２

　（A）ウサギミトコンドリアのアスパラギン酸アミノ基転移酵素に対して、DCAによりコンタクト部位を予測した図。ｘ軸、ｙ軸は共にアミノ酸配列の各残基を表す。青丸が実験的に解かれた立体構造から計算された実際のコンタクト部位、赤丸がDCAによる予測と実際のコンタクト部位が合致した箇所、黒丸がDCAによって予測されたが実際のコンタクト部位ではなかった箇所を表す。計算はEVCouplings Serverを利用して行った［38］。（B）アミノ酸配列間に存在する系統関係の模式図。種間の系統樹とアミノ酸配列のマルチプルアライメントを表す。

　DCAは計算機的に立体構造を予測するために使われるだけではなく、実験的に立体構造を決定する際の参照情報として利用されることもある。［39］では、ペプチドグリカン合成酵素であるRodAタンパク質の構造をX線結晶構造解析で決定する際、DCAにより得られたコンタクト情報に基づいて分子置換法でその位相を決定している。また［40］では、NMRを利用した構造決定において、配列長の長いタンパク質ではNMRによるスペクトルデータとDCAの情報を統合することでより精度良く構造決定を行うことができると報告している。

　また逆イジング法に基づいて、タンパク質の機能解析を行う研究も存在する。この研究では、逆イジング法により学習された生成モデルに基づいて、アミノ酸配列が変化した時に機能がどの程度失われるかを予測する。これは、アミノ酸を変化させる前後のデータの出現確率を計算し、変化後にデータの出現確率が大きく低下するならば、それは配列が適切な構造を取れなくなることを意味するので機能が失われているだろうという推論に基づく［41, 42, 43, 44, 45］。これらの研究による予測はある程度の予測精度があることから、イジングモデルがアミノ酸配列の生成モデルとしてある程度妥当であることを示している。しかし、機能変化の予測が目的であれば、学習により得られたペアの依存関係のパラメータの解釈の必要がないため、解釈は難しいがより高精度な生成モデルが得られる深層学習を利用した手法も提案されている［46］。

４．近年のDCAの技術的進展

　近年のDCAの研究では、逆イジング法のモデルを拡張することで、より高い精度を達成しようとする研究も進められている。たとえば［47］では、二項間の関係だけではなく三項間の関係までモデルに含めてパラメータを学習することで、より高い精度でコンタクト部位を予測することができたと主張している。なおこの研究では、単純に三項間に拡張するだけでは推測すべきパラメータが多くなりすぎるため、アミノ酸を極性などの基準で二値化した上でパラメータを学習している。一方で［7］では、二項間の関係のみを見た通常のDCAで得られたモデルだけでも、現実データで観測されている三項間の依存関係の統計量を十分に再現できたと報告している。一見矛盾する報告ではあるが、［47］と［7］では使用した学習法やデータセット、評価基準などが異なっているため単純な比較を行うことはできない。三項間関係を含めたモデルがタンパク質構造解析において有効であるか否かについては、更なる調査研究が必要である。なお、三項間関係をモデルに含む拡張が有効であるかは適用するデータセットに依存する問題であるため、仮にタンパク質の構造解析において有効でなかったとしても、他のデータ解析においても有効でないということを意味するものではないことには注意が必要である。

　DCAは学習においてタンパク質の立体構造情報を利用しない教師なしの学習手法であるが、DCAで学習されたパラメータを特徴量、構造データを教師データとした教師あり学習を行うことで、更なる精度向上を試みる手法も提案されている［48, 49, 50］。これらの方法では、複数の学習方法で得られたDCAのパラメータをそれぞれ特徴量として利用する以外に、タンパク質の二次構造や溶媒接触性などの情報も特徴量として利用することでより精度を向上させている。なおこれらの情報は、タンパク質のアミノ酸配列データのみから十分高精度に予測可能であるため、追加で実験を行ってこれらのデータを取得する必要がないという点が重要である。第三者によるベンチマークテストの結果では、この教師あり学習と統合した手法は教師なし学習のみの手法に比べて予測精度が良かったことを報告している［51］。利用する学習器としては、現在のところ深層学習を用いる手法が性能がよいと考えられている。

　逆イジング法のモデルは、サンプル同士が独立であることを暗に仮定したものである。しかしDCAにおいては、アミノ酸配列間において進化的な関係性が存在しているため、サンプル同士が独立という仮定は原理的に成り立たない（図2Ｂ）。そのために、立体構造内のコンタクト部位に由来するカラムのペアだけではなく、たまたま進化史を共有しているだけのカラムのペアも系統的バイアスとしてDCAにより検出されてしまうという問題点がある［52］。この系統的バイアスを補正するために、アミノ酸配列データセット間において配列類似度が高いペアが存在する場合、その配列の寄与を小さくしてパラメータ学習を行う系統的重み付け法などが利用されている［53］。この方法は簡単な補正法であるためモデルに取り入れやすいという長所がある一方、ヒューリスティックな手法でありアミノ酸配列の進化関係を明示的にモデルに組み込んでいるわけではないという問題点がある。実際にベンチマーク実験の結果からは、系統的重み付け法は性能改善にはわずかにしか寄与していないことが示唆されている［53］。そのため、系統樹を明示的にモデルに組み込んだ逆イジング法の開発が必要であるが、精度を大きく改善するような手法は現在のところ提案されておらず、今後の重要な研究課題である［54］。

　系統的バイアスに関する興味深い理論研究として、C. Qinらによるランダム行列理論に基づく研究が挙げられる［55］。この研究では、ペア間の分散共分散行列の固有値の分布に着目する。この時、もし相互作用由来の依存関係が存在せず系統バイアスによる依存関係しか存在しないならば、その固有値の分布は理論的にべき乗則に従うことを示している。そのため、実際の相互作用に由来する部分とは、そのべき乗則から外れている部分であると結論づけている。

５．タンパク質立体構造解析以外へのデータ解析への逆イジング法の応用

　これまで紹介したように逆イジング法はタンパク質立体構造解析において盛んに利用されている手法であるが、その目的は本来「データのとる値が離散（カテゴリカル）である行列データから依存関係にある列のペアを感度良く検出する」ということであるため、アミノ酸配列データに限らず多様なデータセットに対して適用可能である［56］。そもそも先述した通り、生命データ解析への適用の先駆けとなった研究はE. Schneidmanらによる神経活動データの解析研究である［4］。この研究では、脊椎動物の網膜の神経細胞集団の発火パターンを、各タイムポイントを行、細胞を列とし、細胞があるタイムポイントで発火したか否かを二値で表現した行列データと捉える。この論文ではまず、各細胞間の発火パターンの相関係数はほとんどが大変小さいことから、細胞間にはほとんど相互作用がないように見えることを示している。しかしながら、発火パターンの生成モデルを考えると、各細胞を独立と仮定したモデルよりもイジングモデルを想定した方がデータへの当てはまりがよいことから、このような神経細胞集団の内部にも実はネットワーク構造が存在することを指摘している。この研究以降、逆イジング法は神経活動データ解析において一般的な解析手法となっている［57, 58］。

　ゲノムワイド関連解析（GWAS）への適用例も存在し、この場合、個体を行、SNPを列とした行列データとして逆イジング法を適用する［59, 60, 61, 62］。たとえば［62］では、淋菌Neisseria gonorrhoeaeを対象に、その抗生物質耐性に関与する遺伝子座位の相互作用（遺伝学ではエピスタシスと呼ばれる）を、逆イジング法を利用して検出している。その結果として、既知の抗生物質耐性遺伝子が関わるエピスタシスも数多く検出されたものの、今まで抗生物質耐性に関与すると報告されていなかった遺伝子のみで構成されるエピスタシスが大半を占めたことを報告している。なお、現在報告されているGWASへの適用研究はいずれも、微生物を対象としたものでありヒトなどの真核生物を対象にした研究は存在していない。これは、真核生物のゲノムサイズではSNP数が多すぎるため、必要なサンプルサイズや計算時間の観点から逆イジング法をそのまま適用することが難しい点にあると思われる。よって、ヒト疾患研究などに逆イジング法を適用したい場合には、SNPのクラスタリングや事前の絞り込みなどのデータ前処理、または高速なパラメータ推定手法の開発などが必要であると考えられる。

　また生命データ解析のみならず、社会科学分野のデータ解析への応用例なども存在する。例として、アメリカ合衆国の最高裁判所における裁判官の判決の傾向をモデル化した研究があげられる［63］。この研究では判決を行、各裁判官（9名）を列とし、各裁判官が判決に賛成したか反対したかを二値で表現した行列データとして捉える。そして、このデータに対して逆イジング法を適用することで裁判官同士での判決の類似傾向を抽出し、その政治的傾向との関係性などを解析している。

６．まとめ

　本総説では、データの取る値が離散（カテゴリカル）である行列データから依存関係にある列のペアを高感度に検出する手法である逆イジング法の紹介を行った。まず逆イジング法のモデルと学習方法について解説を行い、これら学習方法の間には精度と速度のトレードオフがあるため、使用するデータや目的に応じて使い分ける必要があることを議論した。また、逆イジング法の生命情報解析への応用例として、主にタンパク質立体構造解析への適用を中心に具体的な研究例を解説した。一方で、逆イジング法は離散値の行列データさえあれば適用可能であることから、広い応用例が存在していることを紹介した。

　今後の研究としてはまず、逆イジング法が未だ適用されていない離散値行列データに逆イジング法を適用し、その有効性を検討することが重要である。また、タンパク質立体構造解析研究において研究がなされた、三項間関係の解析や教師あり学習との統合解析は適用分野を限定しない一般的な解析手法であるため、これらの手法を他のデータセットに適用することも興味深い研究課題である。加えて、新しいデータセットに逆イジング法を適用する際には、現在の学習方法では精度・速度が実用的でないことも考えられるため、より優れた学習方法を考案していくことも必要である。

　タンパク質立体構造解析への応用研究においては、系統樹情報の考慮による精度向上が最重要な研究課題であると考えられる。系統関係を考慮した形質の比較手法の研究は、系統学において古くより議論されている課題であり、系統比較法（Phylogenetic comparative methods）と呼ばれる様々な手法が提案されている［64, 65］。この手法と逆イジング法の統合は問題解決の糸口となることが期待されるが、シンプルな統合は計算時間を大幅に増加させるため実用的ではないことが予想される。よって、ある程度の近似を伴う、しかし実用的なヒューリスティクスを提案することが重要かもしれない。また、現在逆イジング法の入力データとなっているマルチプルアライメントは決定的なデータとしてみなされているが、このマルチプルアライメントはアミノ酸配列群からソフトウェアにより推定されたものであり、実のところ不確実性を伴うデータである。このようなアライメントデータに付随する不確実性を考慮したうえでモデル化をおこなう［66］ことで、コンタクト部位の推測精度が向上すると考えられる。

参考文献

[1] Matteo Pellegrini et al. (1999) Assigning protein functions by comparative genome analysis: Protein phylogenetic profiles. Proc. Natl. Acad. Sci. U. S. A., 96(8):4285-4288. doi:10.1073/pnas.96.8.4285
[2] Philip R Kensche et al. (2008) Practical and theoretical advances in predicting the function of a protein by its phylogenetic distribution.J. R. Soc. Interface, 5(19):151-170. doi:10.1098/rsif.2007.1047
[3] Richard R Stein et al. (2015) Inferring pairwise interactions from biological data using maximum-entropy probability models. PLoS Comput. Biol., 11(7):e1004182. doi: 10.1371/journal.pcbi.1004182
[4] Elad Schneidman et al. (2006) Weak pairwise correlations imply strongly correlated network states in a neural population. Nature, 440(7087):1007-1012. doi:10.1038/nature04701
[5] Adam L. Berger et al. (1996) A maximum entropy approach to natural language processing. Computational Linguistics, 22(1):39-71.
[6] David H. Ackley et al. (1985) A learning algorithm for Boltzmann machines. Cognitive Science, 9(1): 147-169. doi:10.1207/s15516709cog0901_7
[7] Matteo Figliuzzi et al. (2018) How pairwise coevolutionary models capture the collective residue variability in proteins? Mol. Biol. Evol., 35(4):1018-1027. doi:10.1093/molbev/msy007
[8] Julian Besag. (1975) Statistical analysis of non-lattice data. J. Roy. Stat. Soc. Ser. D, 24(3):179-195. doi:10.2307/2987782
[9] Sivaraman Balakrishnan et al. (2011) Learning generative models for protein fold families. Proteins, 79(4):1061-1078. doi:10.1002/prot.22934
[10] Magnus Ekeberg et al. (2013) Improved contact prediction in proteins: using pseudolikelihoods to infer Potts models. Phys. Rev. E, 87(1):012707. doi:10.1103/PhysRevE.87.012707
[11] Magnus Ekeberg et al. (2014) Fast pseudolikelihood maximization for direct-coupling analysis of protein structure from many homologous amino-acid sequences. J. Comput. Phys., 276:341-356. doi:10.1016/j.jcp.2014.07.024
[12] Stefan Seemayer et al. (2014) CCMpred— Fast and precise prediction of protein residue-residue contacts from correlated mutations. Bioinformatics, 30(21):3128-3130. doi:10.1093/bioinformatics/btu500
[13] Simona Cocco et al. (2018) Inverse statistical physics of protein sequences: key issues review. Rep. Prog. Phys., 81(3):032601. doi:10.1088/1361-6633/aa9965
[14] Simona Cocco and Remi Monasson (2011) Adaptive cluster expansion for inferring Boltzmann machines with noisy data. Phys. Rev. Lett., 106(9):090601. doi:10.1103/PhysRevLett.106.090601
[15] Simona Cocco and Remi Monasson (2011) Adaptive cluster expansion for the inverse Ising problem: convergence, algorithms and tests. J. Stat. Phys., 147(2):252-314. doi:10.1007/s10955-012-0463-4
[16] J. P. Barton et al. (2016) ACE: Adaptive cluster expansion for maximum entropy graphical model inference. Bioinformatics, 32(20):3089-3097. doi:10.1093/bioinformatics/btw328
[17] David T Jones et al. (2012) PSICOV: Precise structural contact prediction using sparse inverse covariance estimation on large multiple sequence alignments. Bioinformatics, 28(2):184-190. doi:10.1093/bioinformatics/btr638
[18] Carlo Baldassi et al. (2014) Fast and accurate multivariate Gaussian modeling of protein families: Predicting residue contacts and protein-interaction partners. PLoS ONE, 9(3):e92721. doi:10.1371/journal.pone.0092721
[19] Sohl-Dickstein, J. et al. (2011) Minimum probability flow learning. ICML
[20] Chau H. Nguyen et al. (2017) Inverse statistical problems: from the inverse Ising problem to data science. Advances in Physics, 66(3):197-261. doi:10.1080/00018732.2017.1341604
[21] Martin weigt et al. (2009) Identification of direct residue contacts in protein-protein interaction by message passing. Proc. Natl. Acad. Sci. U. S. A., 106(1):67-72. doi:10.1073/pnas.0805923106
[22] Alexander Schug et al. (2009) High-resolution protein complexes from integrating genomic information with molecular simulation. Proc. Natl. Acad. Sci. U. S. A., 106(52):22124-22129. doi:10.1073/pnas.0912100106
[23] Faruck Morcos et al. (2011) Direct-coupling analysis of residue coevolution captures native contacts across many protein families. Proc. Natl. Acad. Sci. U. S. A., 108(49):E1293-E1301. doi:10.1073/pnas.1111471108
[24] Sergey Ovchinnikov et al. (2014) Robust and accurate prediction of residue–residue interactions across protein interfaces using evolutionary information. Elife, 3:e02030. doi:10.7554/eLife.02030
[25] Thomas A Hopf et al. (2014) Sequence co-evolution gives 3D contacts and structures of protein complexes. Elife, 3:e03430. doi:10.7554/eLife.03430
[26] Anne-Florence Bitble et al. (2016) Inferring interaction partners from protein sequences. Proc. Natl. Acad. Sci. U. S. A., 113(43):12180-12185. doi:10.1073/pnas.1606762113
[27] Thomas Gueudre et al. (2016) Simultaneous identification of specifically interacting paralogs and interprotein contacts by direct coupling analysis. Proc. Natl. Acad. Sci. U. S. A., 113(43):12180-12185. doi:10.1073/pnas.1607570113
[28] Qian Cong et al. (2019) Protein interaction networks revealed by proteome coevolution. Science, 365(6449):185-189. doi:10.1126/science.aaw6718
[29] Debora S Marks et al. (2011) Protein 3D structure computed from evolutionary sequence variation. PLoS ONE, 6(12):e28776. doi:10.1371/journal.pone.0028766
[30] Joanna I Sulkowska et al. (2012) Genomics-aided structure prediction. Proc. Natl. Acad. Sci. U. S. A., 109(26):10340-10345. doi:10.1073/pnas.1207864109
[31] Timothy Nugent and David T Jones. (2012) Accurate de novo structure prediction of large transmembrane protein domains using fragment-assembly and correlated mutation analysis. Proc. Natl. Acad. Sci. U. S. A., 109(24): E1540-E1547. doi:10.1073/pnas.1120036109
[32] Thomas A Hopf et al. (2012) Three-dimensional structures of membrane proteins from genomic sequencing. Cell, 149(7):1607-1621. doi:10.1016/j.cell.2012.04.012
[33] Eleonora De Leonardis et al. (2015) Direct-coupling analysis of nucleotide coevolution facilitates RNA secondary and tertiary structure prediction. Nucleic Acids Res., 43(21):10444-10455. doi:10.1093/nar/gkv932
[34] Caleb Weinreb et al. (2016) 3D RNA and functional interactions from evolutionary couplings. Cell, 165(4):963-975. doi:10.1016/j.cell.2016.03.030
[35] Jian Wang et al. (2017) Optimization of RNA 3D structure prediction using evolutionary restraints of nucleotide-nucleotide interactions from direct coupling analysis. Nucleic Acids Res., 45(11):6299-6309. doi:10.1093/nar/gkx386
[36] Sergey Ovchinnikov et al. (2017) Protein structure determination using metagenome sequence data. Science, 355(6322):294-298. doi:10.1126/science.aah4043
[37] Nathan J Rollins et al. (2019) Inferring protein 3D structure from deep mutation scans. Nat. Genet., 51(7):1170-1176. doi:10.1038/s41588-019-0432-9
[38] Thomas A Hopf et al. (2019) The EVcouplings Python framework for coevolutionary sequence analysis. Bioinformatics, 35(9):1582-1584. doi:10.1093/ bioinformatics/bty862
[39] Megan Sjodt et al. (2018) Structure of the peptidoglycan polymerase RodA resolved by evolutionary coupling analysis. Nature, 556(7699):118-121. doi:10.1038/nature25985
[40] Yuefeng Tang et al. (2015) Protein structure determination by combining sparse NMR data with evolutionary couplings. Nat. Methods, 12(8):751-754. doi:10.1038/nmeth.3455
[41] Andrew L Ferguson et al. (2013) Translating HIV sequences into quantitative fitness landscapes predicts viral vulnerabilities for rational immunogen design. Immunity, 38(3):606-617. doi:10.1016/j.immuni.2012.11.022
[42] Jaclyn K Mann et al. (2014) The fitness landscape of HIV-1 Gag: Aadvanced modeling approaches and validation of model predictions by in vitro testing. PLoS Comput. Biol., 10(8):e1003776. doi:10.1371/journal.pcbi.1003776
[43] Matteo Figliuzzi et al. (2016) Coevolutionary landscape inference and the context-dependence of mutations in beta-lactamase TEM-1. Mol. Biol. Evol., 33(1):268-280. doi:10.1093/molbev/msv211
[44] R. R. Cheng et al. (2016) Connecting the sequence-space of bacterial signaling proteins to phenotypes using coevolutionary landscapes. Mol. Biol. Evol., 33(12):3054-3064. doi:10.1093/molbev/msw188
[45] Thomas A Hopf et al. (2017) Mutation effects predicted from sequence co-variation. Nat. Biotechnol., 35(2):128-135. doi:10.1038/nbt.3769
[46] Adam J Riesselman et al. (2019) Deep generative models of genetic variation capture the effects of mutations. Nat. Methods, 15(10):816-822. doi:10.1038/s41592-018-0138-4
[47] Michael Schmidt and Kay Hamacher. (2017) Three-body interactions improve contact prediction within direct-coupling analysis. Phys. Rev. E, 96(5-1):052405. doi:10.1103/PhysRevE.96.052405
[48] David T Jones et al. (2014) MetaPSICOV; combining coevolution methods for accurate prediction of contacts and long range hydrogen bonding in proteins. Bioinformatics, 31(7):999-1006. doi:10.1093/bioinformatics/btu791
[49] Yang Liu et al. (2018) Enhancing evolutionary couplings with deep convolutional neural networks. Cell Syst., 6(1):65-74.e3. doi:10.1016/j.cels.2017.11.014
[50] Sheng Wang et al. (2017) Accurate de novo prediction of protein contact map by ultra-deep learning model. PLoS Comput. Biol., 13(1):e1005324. doi:10.1371/journal. pcbi.1005324
[51] Saulo HP de Oliveria et al. (2017) Comparing co-evolution methods and their application to template-free protein structure prediction. Bioinformatics, 33(3):373-381. doi:10.1093/bioinformatics/btw618
[52] Guillaume Marmier et al. (2019) Phylogenetic correlations can suffice to infer protein partners from sequences. PLoS Comput. Biol., 15(10):e1007179. doi:10.1371/journal.pcbi.1007179
[53] Adam J Hockenberry and Claus O Wilke. Phylogenetic weighting does little to improve the accuracy of evolutionary coupling analyses. Entropy, 21(10):1000. doi:10.3390/e21101000
[54] Edwin R Horta et al. (2019) Toward inferring Potts models for phylogenetically correlated sequence data. Entropy, 21(11):1090. doi:10.3390/e21111090
[55] Chongli Qin and Lucy J Colwell. Power law tails in phylogenetic systems. Proc. Natl. Acad. Sci. U. S. A., 115(4):690-695. doi:10.1073/pnas.1711913115
[56] Rodrigo Cofre et al. (2019) A comparison of the maximum entropy principle across biological spatial scales. Entropy, 21(10):1009. doi:10.3390/e21101009
[57] Takamitsu Watanabe et al. (2013) A pairwise maximum entropy model accurately describes resting-state human brain networks. Nat. Commun., 4:1370. doi:10.1038/ncomms2388
[58] Lorenzo Posani et al. (2017) Functional connectivity models for decoding of spatial representations from hippocampal CA1 recordings. J. Comput. Neurosci., 43(1):17-33. doi:10.1007/s10827-017-0645-9
[59] Marcin J Skwark et al. (2017) Interacting networks of resistance, virulence and core machinery genes identified by genome-wide epistasis analysis. PLoS Genet., 13(2):e1006508. doi:10.1371/journal.pgen.1006508
[60] Santeri Puranen et al. (2018) SuperDCA for genome-wide epistasis analysis. Microb. Genom., 4(6):e000184. doi:10.1099/mgen.0.000184
[61] Chen-Yi Gao et al. (2019) DCA for genome-wide epistasis analysis: the statistical genetics perspective. Phys. Biol.,16(2):026002. doi:10.1088/1478-3975/aafbe0
[62] Benjamin Schubert et al. (2019) Genome-wide discovery of epistatic loci affecting antibiotic resistance in Neisseria gonorrhoeae using evolutionary couplings. Nat. Microbiol., 4(2):328-338
[63] Edward D Lee et al. (2015) Statistical mechanics of the US supreme court. J. Stat. Phys., 160:275-301
[64] Theodore Garland Jr. and Anthony R Ives. (2000) Using the past to predict the present: confidence intervals for regression equations in phylogenetic comparative methods. Am. Nat., 155(3):346-364. doi:10.1038/s41564- 018-0309-1
[65] Daniel Barker and Mark Pegal. (2005) Predicting functional gene links from phylogenetic-statistical analyses of whole genomes. PLoS. Comput. Biol., 1(1):e3. doi:10.1371/journal.pcbi.0010003
[66] Michiaki Hamada. (2014) Fighting against uncertainty: an essential issue in bioinformatics. Brief. , 15(5):748-767. doi:10.1093/bib/bbt038

著者略歴

福永津嵩
2016年　東京大学大学院新領域創成科学研究科メディカル情報生命専攻博士後期課程を修了。博士（科学）。早稲田大学理工学術院学術振興会特別研究員を経て、2017年より東京大学大学院情報理工学系研究科コンピュータ科学専攻助教としてバイオインフォマティクスの教育・研究に当たっている。特に、機械学習や文字列解析などの情報学的手法に基づいた、ゲノム配列解析ソフトウェアや機能未知遺伝子推定ソフトウェアの開発研究を行なっている。

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）