Abstract
生物ネットワーク解析はバイオインフォマティクスやシステム生物学における重要なアプローチのひとつである。特に、ネットワーク医学の観点からは、疾病遺伝子や薬剤標的分子の推定のような優先順位づけや疾病モジュールの同定のようなネットワーククラスタリングなどが求められる。本総説では、そのような多様なネットワーク解析に有効なネットワーク伝播について紹介する。ネットワーク伝播は半教師あり学習手法の一種であり、既知のラベルをネットワーク上で伝播させることによって重要なノードや部分ネットワークを見つける。ネットワーク伝播は理論背景が平易であり、拡張性が高い。そのため様々な問題に適用することができる。また、解析結果の解釈性が高く、異質なデータへの適用も容易であるという利点も持つ。ここでは、いくつかの代表的な手法を題材にしながら、ネットワーク伝播の基礎から応用までを解説する。
1.はじめに
生体内で起きている種々の生命現象や病気の発症などは、遺伝子、タンパク質、代謝化合物のような生体分子の複雑な相互作用の結果として起きている。このような複雑な相互作用の理解はバイオインフォマティクス[1]やシステム生物学[2, 3]における重要な課題である。近年の計測技術やそれに関連する情報解析技術の発展から、様々な生体分子の相互作用を網羅的に同定することができるようになってくると、このような相互作用の総体(インタラクトーム)のデータを解析するための手法が必要になってきた。
そこで注目されたアプローチのひとつが、ネットワーク解析を含む複雑ネットワークに関する全般的な学問分野であるネットワーク科学[4, 5, 6, 7]である。これはシステムにおける要素をノード、相互作用(もしくは関係性)をエッジと考えることで、そのシステムをネットワーク(グラフ)として表現することで理解しようというアプローチである。もちろん、そのようなネットワーク解析は社会ネットワーク解析[8, 9]として古くから知られている。しかしながら、20世紀の終わり頃から、生物学に限らず様々な分野で大量の相互作用(つまりネットワークの)データが利用可能になり、そのようなネットワークを統計物理学の視点から捉えるというアプローチ[10]がなされると、学際分野として急速に発展した。これは、ネットワークが「要素とその相互作用」という視点で見れば様々なシステムを対象にできるため、幅広く応用することができたためである。
特に、生物学におけるネットワーク科学の展開はネットワーク生物学[11]として位置付けられている。ネットワーク生物学のひとつの潮流としてはヒト健康分野への応用であるだろう。この潮流はネットワーク医学[12]とも呼ばれ、ネットワーク解析を通して、病気の特定、予防、治療などに役立てることを目的としており、いくつかのタスクに切り分けられる。ここではふたつの代表的なタスクについて考える。
ひとつは、疾病遺伝子や薬剤標的分子の推定のような要素に対する「優先順位づけ」である。疾病遺伝子の推定にはゲノムワイド関連解析(GWAS)が有用である[13]ことが知られているが、この手法は一般に関連分析(多変量解析のような統計解析)に基づくため、推定された遺伝子が疾病とどれほど関係しているかはわからない点も多い。特に、多変量解析では変数(遺伝子などの生体分子)が互いに独立である(相互作用しない)ことを前提にしているが、生体分子の複雑なネットワークを考えれば、そのような前提が成り立つとは言い難い。そのため、解析結果の解釈が困難であったり、推定された遺伝子のほとんどは疾病とは生物学的に意味を持たない変異や遺伝子を反映しているだけではないかと指摘[13, 14, 15]されたりしている。もちろん、統計解析において交互作用を考えることでこの問題に対応することができるかもしれないが、そのアプローチは計算コストが高く、変数の数がサンプル数に対して極端に大きくなるため、現実的であるとはいえないだろう。そのため、生体分子ネットワークを考えることでより確からしい疾病遺伝子を探索できると考えられている[16, 17]。
もうひとつは、機能モジュールの同定のようなネットワークのクラスタリングである。例えば、疾病に関連する遺伝子は生体分子ネットワーク(例えばタンパク質相互作用ネットワーク)上で互いに近傍に位置することでネットワークモジュール(クラスタ)を形成するという「疾病モジュール仮説[18, 19]」がある。これは、GWASによって同定された疾患関連遺伝子の生物学的意義を明らかにしたり、先述のように疾病遺伝子や薬剤標的分子を推定したりすることに役立つと考えられている[12, 20]。このようなモジュールを見つけるためにはやはりネットワークを解析することが不可欠となる。
さて、ネットワークについてこのような優先順位づけを行なったりクラスタリングを行なったりするにはどうしたらよいだろうか。ネットワーク解析の基礎[5, 6, 7]を考えれば、優先順位づけは媒介中心性やPageRankのような指標を用いた中心性解析[7, 9]、クラスタリングはコミュニティ検出[21]で行うことができるだろう。しかしながら、これらの解析手法はネットワークの構造(トポロジー)「のみ」に基づく方法であり、どれが疾病遺伝子であるか、また薬剤標的分子であるか、といったラベル(与えられた情報)を考慮しない。また、ユーザは異なる課題に対して異なる手法を考える必要があるため不便であることも多い。
そこで本総説では、ノードのラベルを加味しながら優先順位づけやネットワーククラスタリングを行うことができるネットワーク伝播[17, 22]について紹介する。ネットワーク伝播は、その理論的背景が平易であり、多くのタスクについて応用することができる利点がある。また、解析結果の解釈性が高く、異質なデータへの適用も容易である。いくつかの代表的な手法を題材にしながら、ネットワーク伝播の基礎から応用までを説明する。
2.ネットワーク伝播
ネットワーク伝播とは半教師あり学習手法の一種であり、形式としてはラベル伝播[23, 24]と同じであると見ることができる。具体的に、疾病モジュール仮説に代表されるように、隣接するノードのラベルは似ていると考え、ネットワークにおいてラベルが既知のノードからそのラベルを伝播させることで、ラベルが未知のノードのラベルを推定する。図1にはイルカの社会ネットワーク[25]を使用して、筆者らが実際に行ったネットワーク伝播の例が示される。
2.1 ネットワーク伝播の基本形
具体的に、ネットワーク伝播の基本形は式(1)のように表される。
(1)
x
i
(
t
+
1
)
=
∑
j
=
1
N
M
ij
x
j
(
t
)
{x_i^left ({t+1} right ) ={ sum csub {j = 1} csup N {M_{ij} x_j^left ( t right )}}}
|
ここで、
x
j
(
t
)
x_j^left ( t right )
はt回目のネットワーク伝播におけるノードj(=1, …, N)のスコア(あるラベルを持つ信頼度など)である。ここでは簡単のために、
x
j
(
t
)
x_j^left ( t right )
はひとつのラベル(値)を持つと考えているが、これをベクトルと置き換えて、ひとつのノードに複数個のラベルを割り当てることもできる。Mijはネットワーク構造を反映するN×N行列の要素(スカラ)であり、ノードi−j間のつながりの程度を表す。式(1)を行列表現で書けば、x(t+1)=Mx(t)である。
適当な初期値x(0)から式(1)を計算し、定常状態x*(=x(∞))を求めることで最終的なスコアを得る。十分大きな値Tを考えた場合、x*≈MTx(0)と近似的に計算することもできる。
さて、Mはどのように設定すれば良いだろうか。ここでは簡単のため、無向の重みつきネットワークにおけるネットワーク伝播を考える。ネットワーク伝播においては、スコアが定常状態に達する(x(∞)が収束する)ことを考えるため、ネットワークが連結であり、Mの最大固有値が1以下である必要がある[17]。そのため、ネットワークの重みつき隣接行列W(ノードiとjが重みwで隣接するならWij=w、そうでないならWij=0となる行列)をMとして用いることは一般にできない。ここで、よく用いられるふたつの行列を紹介する。
ひとつは確率遷移行列である。この場合、Mij=Wij/sjとなる。ここで、
s
j
=
∑
i
=
1
N
W
ij
{s_j ={ sum_{i = 1}^N W_{ij}}}
であり、重みつき次数を意味する。重みつき次数行列D(Dii=siで、i≠jならDij=0である行列)を用いれば、M=WD−1とも表せる。ここで、Mijはノードiがノードjからある一定の値が遷移する確率(割合)を意味する。つまり、確率遷移行列を用いたネットワーク伝播はネットワーク上でのランダムウォークを通してラベルを伝播させることを考えている。Perron-Frobeniusの定理から確率遷移行列の最大固有値は1であることが知られており、式(1)の収束条件を満たす。
もうひとつは、M=D−1/2WD−1/2である。この場合、
M
ij
=
W
ij
/
s
i
s
j
{M_{ij} =W_{ij} /sqrt { {s_i s_j} }}
となる。Perron-Frobeniusの定理から、この行列Mの最大固有値は最大で1であるため、確率遷移行列と同様に式(1)の収束条件を満たす。確率遷移行列を用いる場合のネットワーク伝播と比較すると、この行列を用いたネットワーク伝播は予測性能が高く[26]、ネットワークデータのノイズに対する頑健性が高い[26]ことが経験的に知られているため、こちらの方が一般的によく用いられる。また、確率遷移行列とは異なり、この行列は対称であるため数学的な取り扱いが簡単になるという利点もある。
2.2 再スタートありのネットワーク伝播
しかしながら、式(1)のネットワーク伝播は有用でない場合が多い。定常状態x*では、ラベルの情報が損失するからだ。そもそも、式(1)で記述されるネットワーク伝播は隣接するノードペアは同じようなラベルあるいはスコアをもつという平滑条件を意味する。具体的に、定常状態x*を求めることは、
x
*
=
arg min
x
Ω
(
x
)
{ {bold x} ^italic "*" ={{nitalic func "arg min"} csub bold x %OMEGA } \( bold x \)}
という最適化問題として捉えることもできる[23, 27]。ここで、
(2)
Ω
(
x
)
=
x
Τ
(
I
−
M
)
x
{{ %OMEGA left ( bold x right) = bold x }^ %TAU left ( { bold I - bold M } right ) bold x }
|
である。また、M=D−1/2WD−1/2を考えた場合、式(2)は次式のように書き換えられる。
(3)
Ω
(
x
)
=
1
2
∑
i
=
1
N
∑
j
=
1
N
W
ij
(
x
i
s
i
−
x
j
s
j
)
2
{ %OMEGA left ( bold x right ) =1 over 2 { sum csub {i = 1} csup N { sum csub {j = 1} csup N {W_{ij} left ( {x_i over sqrt { s_i } - x_j over sqrt { s_j }} right )^2}}}}
|
そのため、式(3)より
x
i
*
∝
s
i
{x_i^italic "*" prop sqrt {s_i}}
となることがわかる。つまり、x*は単にそれぞれのノードの重みつき次数を表すことになる。確かに、次数は優先順位づけにおいて重要な指標であることが多くの中心性解析[28, 29, 30]から知られているが、次数に基づく優先順位づけは偽陽性が多いことが知られている。これに加え、この解析においてラベルはまったく生かされていないことになる。
このようなラベルが損失する問題を避けるためには、ネットワーク伝播の繰り返し回数を小さく設定するという案もあるが、では何回に設定すればよいのかという問題が残り、あまり現実的ではない。
そこで、このようなラベルが損失する問題を避けるために、スコアの初期値x(0)(既知のラベル)を用いたリセット(再スタート)がよく用いられる。これは再スタートありのネットワーク伝播法とよばれ、具体的に次式のように表される。
(4)
x
(
t
+
1
)
=
α
x
(
0
)
+
(
1
−
α
)
Mx
(
t
)
{{ bold x} ^{ \( t + 1 \)} ={α{bold x} }^{ \( 0 \)} + \( 1 -α\) {bold Mx} ^{ \( t \)}}
|
ここでαは調節パラメータであり、0から1の範囲で設定される。つまり、αの割合だけスコアの初期値(既知のラベル)を混ぜながらネットワーク伝播を繰り返すことで、ラベルの損失を防ぐという戦略である。
式(4)の定常状態x*を求める問題は2.2節で説明したように最適化問題として捉えることもできる[27]。具体的に、次式のようになる。
(5)
x
*
=
arg min
x
Ω
(
x
)
+
α
1
−
α
‖
x
−
x
(
0
)
‖
2
2
{ {bold x} ^ italic "*" = nitalic "arg min" csub bold ital x %OMEGA left ( bold x right ) + { α over {1 - α}} ldline bold x - {bold x} ^ { ( 0 ) } rdline ^ 2 _ 2 }
|
つまり、再スタートありのネットワーク伝播は、式(2)で示される平滑条件(第一項)に加えて、ネットワーク伝播で得られるラベル(スコア)を既知のラベルとなるべく一致させるというフィッティング(第二項)を考えていると見ることもできる。なお、式(5)を考えれば、定常状態はx*=α[I−(1−α)M]−1x(0)となることがわかる[17, 23]。
3.優先順位づけとしてのネットワーク伝播
ネットワーク伝播を生物ネットワーク解析、特に優先順位づけ、に用いた初期の研究として、2004年にWestonらによって提案されたRankProp[31, 32]があげられる。これはタンパク質の類似度ネットワークを用いたネットワーク伝播を考えることでタンパク質の構造クラスを推定する手法である。もちろん、このような推定はBLASTやPSI-BLASTのような一般的なホモロジー検索からも行うことができる。しかしながら、データベースの更新初期においては誤ったクラスが割り当てられている場合があり、そのような誤ったラベルに推定結果が影響される場合がある。この場合、例えばPSI-BLASTから得られたような、タンパク質の類似度行列(ネットワーク)において、ラベルの異なるタンパク質間にエッジが張られることになるが、ネットワーク伝播の文脈でそれは大きな問題にはならない。そのようなエッジの重みは小さいか、複数のエッジが接続しない(スコアが伝播しにくい)ためである。式(5)で示されるような平滑化とフィッティングを考えることで、誤ったラベルの影響を小さくしながら、よりもっともらしいラベルを推定してくれる。
ネットワーク医学の重要性から、ネットワーク伝播は疾病遺伝子[16, 26, 27]や薬剤標的タンパク質[33]の推定にも応用される。既知の疾病遺伝子や薬剤標的タンパク質から、タンパク質相互作用ネットワークなどの生体分子ネットワークの構造情報を用いて、新たな疾病遺伝子や薬剤標的タンパク質を同定するという試みである。遺伝子と疾病との関連性における初期スコアx(0)は、特定の疾病に注目した場合、遺伝子i(=1, …, N)が疾病遺伝子である(
x
i
(
0
)
=
1
x_i^{ \( 0 \)} =1
)もしくはそうではない(
x
i
(
0
)
=
0
x_i^{ \( 0 \)} =0
)とするのが単純な設定であるが、既知の疾病遺伝子の数は限られているため、そのような設定はあまり有用ではない。そこで、PRIoritizatioN and Complex Elucidation(PRINCE)[26]では疾病間の類似度も考慮して初期スコアを決定し、ある疾病q(=1, …, Nd)に関連する遺伝子候補を推定している。ここで、Ndは疾病の数である。具体的に、疾病qと良く似た疾病jと関連する遺伝子は疾病qとも関連する遺伝子であると考え、「疾病qに対する」遺伝子(タンパク質)の初期スコアを
x
i
(
0
)
=
max
1
≤
j
≤
N
d
B
ij
gd
S
qj
d
{x_i^{ \( 0 \)} ={{nitalic func max} csub {1 <= j <= N_d} {B `_{ij}^{func gd} S ` _{qj}^func d}}}
と設定している。
B
ij
gd
B `_{ij}^{func gd}
は疾病-遺伝子関係(ネットワーク)を表すN×Ndの接続行列の要素であり、遺伝子iが疾病jの関連遺伝子であれば
B
ij
gd
=
1
B `_{ij}^{func gd} =1
、そうでなければ
B
ij
gd
=
0
B `_{ij}^{func gd} =0
となる。
S
qj
d
S ` _{qj}^func d
はNd×Ndの類似度行列の要素であり、疾病qと疾病jの類似度を表す。このように設定されたx(0)をそのまま疾病qに対する遺伝子の推定に使うこともできるが、タンパク質ネットワーク上でネットワーク伝播させることでラベルを補正し、より確からしい疾病遺伝子を推定することを考えている。このようなアプローチはGWASデータのネットワーク解析[34]ともよばれ、1節で説明したようなGWASの問題点を回避しながら、より確からしい疾病遺伝子の推定に役立てられている[35, 36, 37]。
4.クラスタリングとしてのネットワーク伝播
ネットワーク伝播の定常状態はx*=Sx(0)の形にまとめることができる(再スタートなしの場合はS=MTで、再スタートありの場合はS=α[I−(1−α)M]−1)。ここで、x(0)をN×Nの単位行列I(2節で言及したように、式(1)で
x
j
(
t
)
x_j^{ \( t \)}
はひとつの値だけでなく、ベクトルに置き換えることもできるためx(0)は行列として見ることもできる)と設定すれば、Sはノード間のトポロジー的な類似度を表す行列として見ることができる。この時、それぞれのノードから同一の情報(ラベル)が伝播されることになる。それらのノードに近い(類似した)ノードには多くの情報が届くことになる。情報の伝播はネットワークの局所的な構造にも影響されるので、Sはそのような局所構造も加味した類似度になる[17]。これはある種のノード埋め込み[38, 39]に対応している。
ここで、Sが対称で半正定値ならば、それはカーネルと見なすことができる。機械学習分野でよく用いられる拡散カーネルは、ネットワーク伝播と同様に、ネットワーク上でのランダムウォークと関連し、ネットワークの局所構造を考慮しながらノード間の類似度を特徴付けることができる[40]。その類似度行列はS=e−αLと表される。ここで、L=D−Wでありグラフラプラシアンとよばれる。つまり、拡散カーネルはネットワーク伝播の一種として見ることができる。そのため、拡散カーネルを用いることで、疾病関連遺伝子や薬剤標的タンパク質の推定を行うことも可能である[17, 41]。ただ、ネットワーク伝播法はこのような拡散カーネルに基づく方法よりも予測性能が高いことが知られている[16]。これは、拡散カーネルがネットワークの構造(つまりS)のみに注目するのに対して、ネットワーク伝播は既知のラベルを加味したノード間の類似度(つまりx*=Sx(0))に注目するためである。
さて、このようにネットワーク伝播によってノード間の類似度を特徴付けることができるため、分類や回帰などその他の機械学習手法に適用することができる。図2には、イルカの社会ネットワーク[25]を用いて、筆者らがネットワーク伝播から得たノード間の類似度に基づいてクラスタリングした例を示す。ここでは簡単のために、x(0)をN×Nの単位行列Iと設定し、ノード間の類似度をx*=SI=S=α[I−(1−α)M]−1と計算した。
このようなネットワーク伝播のクラスタリングへの応用は、疾病モジュールの同定によく用いられている。例えば、HoNet[42]やHoNet2[43]はガンの体細胞突然変異のモジュールや複雑な疾患の共通バリアントのモジュールを見つけるためにネットワーク伝播を用いている。具体的に、遺伝子の突然変異の頻度や機能的影響を表す遺伝子スコアに基づいてスコアの初期値を設定し、ネットワーク伝播の定常状態からスコアの閾値を設けて、連結成分(サブネットワーク)を抽出することで疾病モジュールを推定する。
なお、ネットワーク伝播(ラベル伝播)は一般的な複雑ネットワークのクラスタリング(コミュニティ検出)にも応用[44]することができ、幅広く用いられている。
5.共同ネットワーク伝播
ネットワーク伝播は複数の異なる種類のネットワークを考えることもできる。これは異なる種類のデータを統合的に解析する場合に役立つ。疾病関連研究に限定したとしても、様々な種類のデータを取り扱うことになる(図3)。疾病関連遺伝子や薬剤標的タンパク質の候補を推定する場合、タンパク質相互作用ネットワークのような生体分子ネットワーク[16, 26]はもちろんのこと、薬剤(化合物)[45]や疾病間の類似性ネットワーク[46]についても考える必要がある。また、これらのネットワークは互いにつながっている。薬剤標的ネットワークは薬剤とその薬剤が標的とするタンパク質の関係を表す二部ネットワークであり、タンパク質相互作用ネットワークと薬剤類似度ネットワークをつなぐ。疾病関連遺伝子は疾病―遺伝子関係を表す二部ネットワーク(疾病―遺伝子ネットワーク)として見なすことができ、タンパク質相互作用ネットワークと疾病類似度ネットワークをつなぐ。また、どの薬がどの疾病に用いられているかは薬剤―疾病ネットワークとして表現することができ、薬剤類似度ネットワークと疾病類似度ネットワークをつなぐ。3節の末尾で言及したPRINCEにおいても、疾病間の類似性ネットワークと疾病―遺伝子ネットワークが考えられている。しかしながら、PRINCEでは初期値x(0)を設定するのに用いただけである。より高い性能で疾病遺伝子や薬剤標的タンパク質の候補推定を行うためには、タンパク質相互作用ネットワークのような生体分子ネットワークに加え、このようなその他のネットワークを含めたネットワーク伝播を考えることが重要である。

図3
複数の異なるネットワークを使ったネットワーク伝播(共同ネットワーク伝播)の概念図
このような複数の(特に、異なる種類の)ネットワークを考えたネットワーク伝播は、共同ネットワーク伝播とよばれる。これは、複数のネットワークにおけるネットワーク伝播の結果として得られるラベルやスコアを互いに受け渡し、反復計算により、そのスコアを更新していきながらスコアの定常状態を求める。
ここでは、共同ネットワーク伝播の代表であるMINProp[27]を題材に説明する。ここで、タンパク質相互作用ネットワークや薬剤類似性ネットワークのように、ノードが同質のネットワークを「同質ネットワーク」とよぶ(図3も参照)。また、薬剤標的ネットワークのように異なる性質のノードで構成される二部ネットワークを「異質ネットワーク」とよぶ。
m個の同質ネットワークを考え、同質ネットワークiの正規化された隣接行列をM(i)とする。これらm個の同質ネットワークは
(
m
2
)
=
m
(
m
−
1
)
/
2
{left ( matrix {m ## 2} right ) =m \( m -1 \) /2}
個の異質ネットワークでつながっているとする。同質ネットワークiとjをつなぐ異質ネットワークの正規化された接続行列をM(i, j)とする。なお、
(
M
(
i
,
j
)
)
T
=
M
(
j
,
i
)
{left ( {bold M} ^{ `\( i , j \)} right )^func T = {bold M} ^{ `\( j , i \)}}
である。隣接行列や接続行列の正規化は確率遷移行列を使っても良いし、D−1/2WD−1/2を用いてもよい。ただ、後者を用いる方が予測性能は高いことが経験的に知られている[27]。
ここで、同質ネットワークi(=1, …, m)における(再スタートありの)ネットワーク伝播を考える。これは、単一のネットワークを用いたネットワーク伝播と同じように行われる。具体的に、t回目の繰り返しにおける同質ネットワークiの各ノードのスコアを示すベクトル
x
i
(
t
)
{bold x} _i^{ \( t \)}
は、次の漸化式を用いて求められる。
(6)
x
i
(
t
+
1
)
=
α
i
y
i
'
+
(
1
−
α
i
)
M
(
i
)
x
i
(
t
)
{ {bold x} _i^{ \( t + 1 \)} =α_i {bold y} _i' + \( 1 -α_i \) {bold M} ^{ \(i \)} {bold x} _i^{ \(t \)}}
|
ここで、αiは同質ネットワークi上でのネットワーク伝播における調節パラメータであり、1−1/mから1の範囲をとる(これについては式(7)を見るとわかる)。
式(4)と式(6)の違いは、再スタートにおいてx(0)の代わりにyi'が用いられているところである。ここでyi'は、同質ネットワークiにおけるスコアの初期値yiと、その他の単一の同質ネットワークj(j≠i)におけるネットワーク伝播から得られたその時点でのスコアの定常状態xjから計算されるスコアのベクトルである。これは、繰り返し計算の収束性を保証するために、次式のように計算される[23, 27]。
(7)
y
i
'
=
1
−
m
(
1
−
α
i
)
α
i
y
i
+
1
−
α
i
α
i
∑
j
=
1
j
≠
i
m
M
(
i
,
j
)
x
j
{ {bold y} _i' ={1 - m \( 1 - α_i \)} over α_i {bold y} _i +{1 - α_i} over α_i { sum csub matrix {{j = 1} ## {j <> i}} csup m {bold M} ^{ \( i , j \)}} {bold x} _j}
|
ここで、第二項がその他の同質ネットワークから異質ネットワークを介して流れてくる情報(スコア)に対応している。このように、その他の同質ネットワークとスコアをやり取りしながら、式(6)で記述されるネットワーク伝播を各同質ネットワークで繰り返していき、ネットワーク全体に対するスコアの最終的な状態
x
i
*
{bold x} _i^italic "*"
を求めていく。具体的なアルゴリズムは論文[27]を参照してほしい。
共同ネットワーク伝播は、初期値の設定によって様々な問題を考えることができる。例えば、タンパク質相互作用ネットワークM(1)、疾病類似性ネットワークM(2)、薬剤類似性ネットワークM(3)を用いて、ある疾病に関連する遺伝子を探索したいと考える。ここで、これらの同質ネットワークは、疾病―遺伝子関係ネットワークM(1, 2)、薬剤―標的タンパク質ネットワークM(1, 3)、疾病―薬剤ネットワークM(2, 3)でつながっているとする。この場合、疾病類似性ネットワークに対する初期スコアのベクトルy2において、その疾病に対応する要素を1、それ以外を0と設定する。その他の同質ネットワークに対する初期スコアのベクトルy1とy3はゼロベクトルと設定する。この時、タンパク質相互作用ネットワークに対する最終的なスコア
x
1
*
{bold x} _1^italic "*"
は各タンパク質(遺伝子)とその疾病の関連性スコアに対応するため、この
x
1
*
{bold x} _1^italic "*"
に基づいて疾病遺伝子を推定することができる。それだけでなく、薬剤類似性ネットワークに対する最終的なスコア
x
3
*
{bold x} _3^italic "*"
に注目すると、その推定された疾病遺伝子(疾病―遺伝子関係)に関与すると考えられる薬剤についても同時に推定することができる。
このように、共同ネットワーク伝播法は、ひとつの問い合わせ(この場合は疾病)から様々なデータに対する推定結果を得ることができるため、統合データ解析において非常に便利である。特に、推定の過程を追跡できるため、解析結果の解釈性が高いという利点を持つ。
6.まとめ
半教師あり学習手法の一種であるネットワーク伝播について紹介した。特に、ネットワーク医学の視点から、いくつかの代表的な手法を題材にして、疾病遺伝子の推定や疾病モジュールの同定への応用について言及した。ネットワーク伝播は理論的背景が平易であり、拡張に富む。具体的に、どのようなネットワーク伝播を考えるか(Mをどのように設定するかなど)、初期スコアをどのように設定するかなどで様々なバリエーションを考えることができる。そのため、多くのネットワーク伝播に関する手法が提案され、様々な問題に応用されている[47, 48, 49]。特に、近年はドラッグリポジショニングに関する応用[50, 51]も盛んである。
ネットワーク伝播は生物学研究において有用である。ネットワーク伝播はノード埋め込みの一種と見ることができるため、疾病遺伝子の推定などは、その他のノード埋め込み手法でも行うことができる。事実、ノード埋め込みの代表であるNode2Vec[39]などが疾病遺伝子の推定などに用いられている[52, 53]。しかしながら、その潜在表現の解釈の難しさを考えると、使いやすいとは言い難い。5節で言及したように、ネットワーク伝播は推定の過程を追跡することができ、解析結果について様々な考察を行うことができる。これが、様々な生物ネットワーク解析[43, 54, 55, 56]でネットワーク伝播が採用されてきた理由である。
しかしながら、課題も残される。2節で示したように、ネットワーク伝播はノード次数の影響を強く受ける場合がある。ノード次数は生物学的な重要性を反映する場合もあるが、単にデータサンプリングの偏りを反映している場合もある[57]。後者の場合、優先順位づけに問題が生じる可能性がある[58]。また、タンパク質相互作用ネットワークにおけるタンパク質複合体の存在により、予測性能が過大評価される場合もある[59]。このようなバイアスを避けるための方法を考える必要がある。これに加え、スコアの統計的有意性評価も課題である。データやネットワークのランダム化から得られる経験的P値を用いる手法は提案されている[43, 49]ものの、計算コストが高いため、計算の高速化が望まれている。
さて、上記のような課題は残るにせよ、実際にネットワーク伝播を試してみたい読者もあるだろう。基本的なネットワーク伝播であれば、代表的なネットワーク描画・解析ソフトウェアであるCytoscape(cytoscape.org)のアプリケーションとして利用可能[22]である(apps.cytoscape.org/apps/Diffusion)。統計分析ソフトウェアR(www.r-project.org)のdiffuStatsパッケージ[60]を用いて実行することもできる。さらに、本総説で紹介したPRINCEとMINPropについては、筆者らのGitHubリポジトリ(github.com/kztakemoto/network_propagation)で利用可能である。生物ネットワーク解析や新規手法の開発に役立ててもらえれば幸いである。
References
- [1] 金久實. (2001) . ポストゲノム情報への招待. 共立出版.
- [2] 江口至洋. (2008) . 細胞のシステム生物学. 共立出版.
- [3] Alon, U. (倉田博之, 宮野悟 訳). (2008) . システム生物学入門 ―生物回路の設計原理―. 共立出版.
- [4] Barabási, A.-L. (2013). Network science. Philosophical Transactions of the Royal Society A, 371(1987), 20120375. https://doi.org/10.1098/rsta.2012.0375
- [5] Barabási, A.-L. (池田裕一, 井上寛康, 谷澤俊弘, 京都大学ネットワーク社会研究会 訳). (2019) . ネットワーク科学: ひと・もの・ことの関係性をデータから解き明かす新しいアプローチ. 共立出版.
- [6] 増田直紀, & 今野紀雄. (2010) . 複雑ネットワーク―基礎から応用まで. 近代科学社.
- [7] Takemoto, K., & Oosawa, C. (2012). Introduction to complex networks: measures, statistical properties, and models. In Statistical and Machine Learning Approaches for Network Analysis (pp. 45-75). https://doi.org/10.1002/9781118346990.ch2
- [8] Freeman, L.C. (1978). Centrality in social networks conceptual clarification. Social Networks, 1, 215-239.
- [9] 鈴木努. (2010) . ネットワーク分析. 共立出版.
- [10] Albert, R., & Barabási, A.-L. (2002). Statistical mechanics of complex networks. Reviews of Modern Physics, 74(1), 47-97. https://doi.org/10.1103/RevModPhys.74.47
- [11] Barabási, A.-L., & Oltvai, Z.N. (2004). Network biology: understanding the cell's functional organization. Nature Reviews Genetics, 5(2), 101-113. https://doi.org/10.1038/nrg1272
- [12] Barabasi, A.L., Gulbahce, N., & Loscalzo, J. (2011). Network medicine: a network-based approach to human disease. Nature Reviews Genetics, 12(1), 56-68. https://doi.org/10.1038/nrg2918
- [13] Tam, V., Patel, N., Turcotte, M., Bossé, Y., Paré, G., & Meyre, D. (2019). Benefits and limitations of genome-wide association studies. Nature Reviews Genetics, 20(8), 467-484. https://doi.org/10.1038/s41576-019-0127-1
- [14] Popejoy, A.B., & Fullerton, S.M. (2016). Genomics is failing on diversity. Nature, 538(7624), 161-164. https://doi.org/10.1038/538161a
- [15] Wray, N.R., Wijmenga, C., Sullivan, P.F., Yang, J., & Visscher, P. M. (2018). Common disease is more complex than implied by the core gene omnigenic model. Cell, 173(7), 1573-1580. https://doi.org/10.1016/j.cell.2018.05.051
- [16] Köhler, S., Bauer, S., Horn, D., & Robinson, P.N. (2008). Walking the interactome for prioritization of candidate disease genes. American Journal of Human Genetics, 82(4), 949-958. https://doi.org/10.1016/j.ajhg.2008.02.013
- [17] Cowen, L., Ideker, T., Raphael, B.J., & Sharan, R. (2017). Network propagation: a universal amplifier of genetic associations. Nature Reviews Genetics, 18(9), 551-562. https://doi.org/10.1038/nrg.2017.38
- [18] Xu, J., & Li, Y. (2006). Discovering disease-genes by topological features in human protein-protein interaction network. Bioinformatics, 22(22), 2800-2805. https://doi.org/10.1093/bioinformatics/btl467
- [19] Goh, K.-I., Cusick, M.E., Valle, D., Childs, B., Vidal, M., & Barabasi, A.-L. (2007). The human disease network. Proceedings of the National Academy of Sciences, 104(21), 8685-8690. https://doi.org/10.1073/pnas.0701361104
- [20] Ghiassian, S.D., Menche, J., & Barabási, A.-L. (2015). A DIseAse MOdule Detection (DIAMOnD) Algorithm Derived from a Systematic Analysis of Connectivity Patterns of Disease Proteins in the Human Interactome. PLOS Computational Biology, 11(4), e1004120. https://doi.org/10.1371/journal.pcbi.1004120
- [21] Fortunato, S. (2010). Community detection in graphs. Physics Reports, 486(3-5), 75-174. https://doi.org/10.1016/j.physrep.2009.11.002
- [22] Carlin, D.E., Demchak, B., Pratt, D., Sage, E., & Ideker, T. (2017). Network propagation in the cytoscape cyberinfrastructure. PLOS Computational Biology, 13(10), e1005598. https://doi.org/10.1371/journal.pcbi.1005598
- [23] Zhou, D., Bousquet, O., Lal, T., Weston, J., & Schölkopf, B. (2004). Learning with local and global consistency. In S. Thrun, L. Saul, & B. Schölkopf (Eds.), Advances in Neural Information Processing Systems (Vol. 16). MIT Press.
- [24] Zhu, X., Ghahramani, Z., & Lafferty, J. (2003). Semi-supervised learning using Gaussian fields and harmonic functions. Proceedings of the Twentieth International Conference on International Conference on Machine Learning, 912-919.
- [25] Lusseau, D. (2003). The emergent properties of a dolphin social network. Proceedings of the Royal Society of London. Series B: Biological Sciences, 270 (suppl_2). https://doi.org/10.1098/rsbl.2003.0057
- [26] Vanunu, O., Magger, O., Ruppin, E., Shlomi, T., & Sharan, R. (2010). Associating genes and protein complexes with disease via network propagation. PLoS Computational Biology, 6(1), e1000641. https://doi.org/10.1371/journal.pcbi.1000641
- [27] Hwang, T., & Kuang, R. (2010). A heterogeneous label propagation algorithm for disease gene discovery. Proceedings of the 10th SIAM International Conference on Data Mining, SDM 2010, 583-594.
- [28] Hase, T., Tanaka, H., Suzuki, Y., Nakagawa, S., & Kitano, H. (2009). Structure of Protein Interaction Networks and Their Implications on Drug Design. PLoS Computational Biology, 5(10), e1000550. https://doi.org/10.1371/journal.pcbi.1000550
- [29] Fraser, H.B. (2002). Evolutionary Rate in the Protein Interaction Network. Science, 296(5568), 750-752. https://doi.org/10.1126/science.1068696
- [30] Takemoto, K. (2012). Current understanding of the formation and adaptation of metabolic systems based on network theory. Metabolites, 2(3), 429-457. https://doi.org/10.3390/metabo2030429
- [31] Weston, J., Kuang, R., Leslie, C., & Noble, W.S. (2006). Protein Ranking by Semi-Supervised Network Propagation. BMC Bioinformatics, 7(S1), S10. https://doi.org/10.1186/1471-2105-7-S1-S10
- [32] Weston, J., Elisseeff, A., Zhou, D., Leslie, C.S., & Noble, W.S. (2004). Protein ranking: From local to global structure in the protein similarity network. Proceedings of the National Academy of Sciences, 101(17), 6559-6563. https://doi.org/10.1073/pnas.0308067101
- [33] Chen, X., Liu, M.-X., & Yan, G.-Y. (2012). Drug-target interaction prediction by random walk on the heterogeneous network. Molecular BioSystems, 8(7), 1970. https://doi.org/10.1039/c2mb00002d
- [34] Leiserson, M.D.M., Eldridge, J.V., Ramachandran, S., & Raphael, B.J. (2013). Network analysis of GWAS data. Current Opinion in Genetics and Development, 23(6), 602-610. https://doi.org/10.1016/j.gde.2013.09.003
- [35] Lee, I., Blom, U.M., Wang, P.I., Shim, J.E., & Marcotte, E.M. (2011). Prioritizing candidate disease genes by network-based boosting of genome-wide association data. Genome Research, 21(7), 1109-1121. https://doi.org/10.1101/gr.118992.110
- [36] Zhu, J., Qin, Y., Liu, T., Wang, J., & Zheng, X. (2013). Prioritization of candidate disease genes by topological similarity between disease and protein diffusion profiles. BMC Bioinformatics, 14(S5), S5. https://doi.org/10.1186/1471-2105-14-S5-S5
- [37] Bruncsics, B., & Antal, P. (2019). A multi-trait evaluation of network propagation for GWAS results. 2019 IEEE Conference on Computational Intelligence in Bioinformatics and Computational Biology (CIBCB), 1-6. https://doi.org/10.1109/CIBCB.2019.8791453
- [38] Perozzi, B., Al-Rfou, R., & Skiena, S. (2014). Deepwalk: Online learning of social representations. Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 701-710.
- [39] Grover, A., & Leskovec, J. (2016). node2vec: Scalable feature learning for networks. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 855-864.
- [40] Kondor, R., & Lafferty, J.D. (2002). Diffusion Kernels on Graphs and Other Discrete Input Spaces. In C. Sammut & A.G. Hoffmann (Eds.), ICML (pp. 315-322). Morgan Kaufmann. http://dblp.uni-trier.de/db/conf/icml/icml2002.html#KondorL02
- [41] Nitsch, D., Gonçalves, J.P., Ojeda, F., de Moor, B., & Moreau, Y. (2010). Candidate gene prioritization by network analysis of differential expression using machine learning approaches. BMC Bioinformatics, 11(1), 460. https://doi.org/10.1186/1471-2105-11-460
- [42] Vandin, F., Upfal, E., & Raphael, B.J. (2011). Algorithms for detecting significantly mutated pathways in cancer. Journal of Computational Biology, 18(3), 507-522. https://doi.org/10.1089/cmb.2010.0265
- [43] Leiserson, M.D.M., Vandin, F., Wu, H.-T., Dobson, J.R., Eldridge, J.V, Thomas, J.L., Papoutsaki, A., Kim, Y., Niu, B., McLellan, M., Lawrence, M. S., Gonzalez-Perez, A., Tamborero, D., Cheng, Y., Ryslik, G.A., Lopez-Bigas, N., Getz, G., Ding, L., & Raphael, B.J. (2015). Pan-cancer network analysis identifies combinations of rare somatic mutations across pathways and protein complexes. Nature Genetics, 47(2), 106-114. https://doi.org/10.1038/ng.3168
- [44] Raghavan, U.N., Albert, R., & Kumara, S. (2007). Near linear time algorithm to detect community structures in large-scale networks. Physical Review E, 76(3), 036106. https://doi.org/10.1103/PhysRevE.76.036106
- [45] Yamanishi, Y., Araki, M., Gutteridge, A., Honda, W., & Kanehisa, M. (2008). Prediction of drug-target interaction networks from the integration of chemical and genomic spaces. Bioinformatics, 24(13), i232-i240. https://doi.org/10.1093/bioinformatics/btn162
- [46] Iida, M., Iwata, M., & Yamanishi, Y. (2020). Network-based characterization of disease-disease relationships in terms of drugs and therapeutic targets. Bioinformatics, 36(Supplement_1), i516-i524. https://doi.org/10.1093/bioinformatics/btaa439
- [47] Hur, B., Kang, D., Lee, S., Moon, J.H., Lee, G., & Kim, S. (2019). Venn-diaNet : venn diagram based network propagation analysis framework for comparing multiple biological experiments. BMC Bioinformatics, 20(S23), 667. https://doi.org/10.1186/s12859-019-3302-7
- [48] Ahn, H., Jo, K., Jeong, D., Pak, M., Hur, J., Jung, W., & Kim, S. (2019). PropaNet: Time-varying condition-specific transcriptional network construction by network propagation. Frontiers in Plant Science, 10. https://doi.org/10.3389/fpls.2019.00698
- [49] Barel, G., & Herwig, R. (2020). NetCore: a network propagation approach using node coreness. Nucleic Acids Research, 48(17), e98-e98. https://doi.org/10.1093/nar/gkaa639
- [50] Lotfi Shahreza, M., Ghadiri, N., Mousavi, S.R., Varshosaz, J., & Green, J.R. (2018). A review of network-based approaches to drug repositioning. Briefings in Bioinformatics, 19(5), 878-892. https://doi.org/10.1093/bib/bbx017
- [51] Stolfi, P., Manni, L., Soligo, M., Vergni, D., & Tieri, P. (2020). Designing a network proximity-based drug repurposing strategy for COVID-19. Frontiers in Cell and Developmental Biology, 8, 545089. https://doi.org/10.3389/fcell.2020.545089
- [52] Peng, J., Guan, J., & Shang, X. (2019). Predicting Parkinson’s disease genes based on Node2vec and autoencoder. Frontiers in Genetics, 10, 226. https://doi.org/10.3389/fgene.2019.00226
- [53] Ata, S.K., Ou-Yang, L., Fang, Y., Kwoh, C.-K., Wu, M., & Li, X.-L. (2018). Integrating node embeddings and biological annotations for genes to predict disease-gene associations. BMC Systems Biology, 12(S9), 138. https://doi.org/10.1186/s12918-018-0662-y
- [54] Wang, B., Mezlini, A.M., Demir, F., Fiume, M., Tu, Z., Brudno, M., Haibe-Kains, B., & Goldenberg, A. (2014). Similarity network fusion for aggregating data types on a genomic scale. Nature Methods, 11(3), 333-337. https://doi.org/10.1038/nmeth.2810
- [55] Hofree, M., Shen, J.P., Carter, H., Gross, A., & Ideker, T. (2013). Network-based stratification of tumor mutations. Nature Methods, 10(11), 1108-1115. https://doi.org/10.1038/nmeth.2651
- [56] Li, H., Li, T., Quang, D., & Guan, Y. (2018). Network propagation predicts drug synergy in cancers. Cancer Research, canres.0740.2018. https://doi.org/10.1158/0008-5472.CAN-18-0740
- [57] Arita, M. (2005). Scale-freeness and biological networks. Journal of Biochemistry, 138(1), 1-4. https://doi.org/10.1093/jb/mvi094
- [58] Zhang, H., Ferguson, A., Robertson, G., Jiang, M., Zhang, T., Sudlow, C., Smith, K., Rannikmae, K., & Wu, H. (2021). Benchmarking network-based gene prioritization methods for cerebral small vessel disease. Briefings in Bioinformatics. https://doi.org/10.1093/bib/bbab006
- [59] Picart-Armada, S., Barrett, S.J., Willé, D.R., Perera-Lluna, A., Gutteridge, A., & Dessailly, B.H. (2019). Benchmarking network propagation methods for disease gene identification. PLOS Computational Biology, 15(9), e1007276. https://doi.org/10.1371/journal.pcbi.1007276
- [60] Picart-Armada, S., Thompson, W.K., Buil, A., & Perera-Lluna, A. (2018). diffuStats: an R package to compute diffusion-based scores on biological networks. Bioinformatics, 34(3), 533-534. https://doi.org/10.1093/bioinformatics/btx632
著者略歴
 |
千代丸 勝美 九州工業大学大学院情報工学研究府情報工学専攻博士後期課程1年 (2020年より在学)。生物学分野を対象とした統計解析やネットワーク解析が主な研究領域である。現在は、情報量(エントロピー)の概念を導入した進化アルゴリズムを用いたコミュニティ検出法の開発やネットワーク伝播の応用を行っている。ネットワークの変化による生命システム動態の変遷について興味がある。 |
竹本 和広 九州工業大学大学院情報工学研究院准教授。2008年京都大学大学院情報学研究科博士課程修了、博士(情報学)。日本学術振興会特別研究員、東京大学大学院新領域創成科学研究科特任研究員、科学技術振興機構さきがけ専任研究者を経て、2012年九州工業大学大学院情報工学研究院助教。2015年より現職。生物ネットワーク解析を専門とする。 |