2024 年 64 巻 5 号 p. 256-259
本稿では,細胞運動において個別観測された複数の分子活性情報を擬似的な同時観測データに変換するデータ解析手法Motion-Triggered Average(MTA)について紹介する.さらに,MTA解析で得られる複数のRho GTPase活性と細胞エッジ速度の時系列データを用いたモデル回帰分析について報告する.
細胞運動は,初期胚発生,創傷治療,癌細胞の浸潤・転移などの様々な生命現象に関与する代表的な細胞機能の1つである.細胞運動は,細胞内のシグナル分子であるRho GTPasesにより制御されている1),2).Rho GTPaseは,細胞膜上でGDP結合型の不活性型とGTP結合型の活性型の2つの状態を取る.活性型のRho GTPaseがターゲットとなるタンパク質と結合することで,下流分子にシグナルを伝達する.これらのシグナル活性の伝達によってアクチン細胞骨格系の再構成が促され,細胞の変形や動きが誘導される.多種あるRho GTPasesのうち,特にRac1,Cdc42,RhoAの3つのシグナル分子が重要な役割を果たす.Rac1活性は網目状のアクチンフィラメントで構成されるラメリポディアを,Cdc42活性は突起状のアクチン構造であるフィロポディアをそれぞれ形成する.RhoAは細胞極性維持に関わるストレスファイバの形成を誘導する.
これら細胞内分子の時空間動態を計測するために,Green Fluorescent Protein(GFP)を用いたバイオセンサーによる生細胞イメージングが行われてきた.特に,Rho GTPaseの分子活性状態は,Fluorescence resonance energy transfer(FRET)原理に基づくFRETバイオセンサーによって計測される3).FRETイメージング計測によって,Rho GTPase活性と細胞の形態変化を生細胞で同時に観察することができる.Rho GTPaseと形態変化を時空間で定量的に評価するために,FRETイメージングの動画データの定量解析が行われてきた.例えば,レベルセット法やエッジマーカーを用いて細胞エッジのトラッキングを行い,細胞内分子活性度とエッジ速度の時空間変化をヒートマップで可視化することができる4),5).一方で,FRET計測は基本的に1分子種のみをターゲットとし,同一細胞で2分子種の活性を同時に計測することは技術的な課題が伴う.これらの計測の問題が,細胞内の複数の分子による細胞エッジ速度の協調制御を理解する上で妨げとなっている.
本稿では,上記のFRET計測における困難を克服する解析的アプローチとして,我々が開発した個別細胞で計測されたRho GTPasesの分子活性データを統合化するデータ前処理方法について概説する.さらに,このデータ前処理で得られる複数の分子活性と細胞エッジ速度の時系列データを用いた細胞エッジ運動とRho GTPase活性のシステム同定解析について報告する.
我々は,個別細胞で計測されたRho GTPasesデータを統合化するデータ前処理方法として,細胞エッジが特定の速度パターンで移動したときの各分子活性度パターンをスクリーニングおよび平均化するアルゴリズムMotion-Triggered Average(MTA)を提案した6).このMTA解析によって,個別に計測された活性度時系列を擬似的に同時計測のデータに変換することが可能となる.細胞内分子活性とエッジ速度の関係性を調べるために,これまで時間相互相関解析が用いられてきた5),7).時間相互相関解析は,1つの入力時系列(原因)を選び,出力時系列(結果)との相関を調べる前向き分析である(図1左).一方でMTAは,出力の特定部分時系列を条件として複数の入力の部分時系列を抽出する後ろ向き分析である(図1右).動的システムの出力応答(結果)の特定条件に基づいて入力応答(原因)をスクリーニングする解析アプローチは逆相関解析と呼ばれ,神経科学などいくつかの分野で採用されてきた8),9).我々が開発したMTAは,細胞エッジの運動をさらに一般化し,任意のエッジ速度パターンに対する分子活性時系列をスクリーニングする.まず,FRETイメージングデータに対して画像解析を適用して,細胞端のエッジ速度と細胞端での分子活性の時空間ヒートマップを定量化する.次に,細胞端のエッジ速度ヒートマップから代表的なエッジ速度パターンをスクリーニングし,それぞれパターンでラベル付けする.最後に,各速度パターンに基づきデータを集約し,エッジ速度と分子活性の時系列データを平均化する(図2).個別計測された分子活性の生細胞イメージングデータにMTAを適用することで,事前に決めたエッジ速度時系列を生成する複数の分子活性時系列情報を同時観測情報として評価することができる.我々は,ヒト線維肉腫由来の培養細胞であるHT1080細胞において,代表的なRho GTPaseであるCdc42,Rac1,RhoAの個別計測されたFRETイメージングデータに対してMTAを適用し,細胞変形を制御する各Rho GTPaseの時系列情報を定量化することに成功した.最初に代表的な5つのエッジ速度パターンである拡張,退縮,加速,減速,定速の速度パターンを定義し,それぞれのパターンに基づいてMTAを適用することで各エッジ速度に対応する3つのRho GTPaseの活性度パターンを推定した.推定された活性パターンは,これまで報告されている3つのRho GTPaseの定性的な関係性と一致した.例えば,エッジが拡張するときCdc42とRac1はRhoAより活性が高く,退縮するときのRhoAはCdc42とRac1より活性が高かった.
時間相互相関とMTAの比較.時間相互相関は全時間(黄色の区間)を用いて相関係数のスカラー値を得る.時間シフトごとに相関係数が得られる.最大相関係数を取る時間シフト値は時系列間の相対的な位相差を示す(黄色点).MTAは,特定の速度パターンが発生した時間(緑の区間)に絞り,同時刻の分子活性度を抽出および平均化する.平均化により,ゆらぎは相殺される.異なる分子の活性度パターンの全ての時系列を同じ時間軸上に表示できる.
MTA解析のワークフロー.FRETイメージングデータに画像解析法を適用し,細胞端でのエッジ速度と分子活性の時空間ヒートマップを定量化する.特定の時間幅に基づいてエッジ速度ヒートマップを区分化した後,代表的なエッジ速度パターンに基づいてラベル付けを行い,それぞれのエッジ速度パターンに応じたエッジ速度と分子活性の時系列データを抽出する.各エッジ速度パターンについて,エッジ速度と分子活性の時系列データを平均化する.
MTAを用いれば,あらゆる細胞内の分子活性度の時系列を同時刻の計測データに変換できるため,細胞エッジの運動の時系列をそれら分子活性時系列で多重回帰することができる.すなわち,エッジ速度を,複数の分子活性度を入力変数として持つ関数で表現することができる.回帰式を構築するとき,既知の生物学的知見を式に反映することが重要であるが,それらがない場合においても式を設計することができる.複数のデータ間を数学的に関数フィッティングすることは,単に定量的ということだけでなく,科学的意義も併せ持つ.もし,エッジ制御の情報が複数の分子に分割されて与えられているとすると,そのうちの1種の分子だけではエッジ速度の情報を復元および予測することができない.複数の分子活性度からエッジ速度を精度良く復号化できれば,それらの分子がエッジ運動の情報を分割保持している間接証拠となる.さらに,因果推論を目的として回帰を利用することも可能である.自己回帰分析の枠組みで,各分子の活性が細胞エッジの速度予測にどの程度寄与するかを基に,それらの要素間の因果関係を推論することができる10).
細胞の機能は,エネルギーの種類を変換する過程で実現される.例えば,細胞は環境から糖を取り入れATPに変換し,その一部を力学エネルギーに変換して細胞外に放出する.その過程は必ずエネルギー保存則に従っている.もし,3種のRho GTPase(Cdc42, Rac1, RhoA)の活性バランスがほとんどの細胞エッジの運動制御を担っているとすると,活性型Rho GTPaseの化学ポテンシャルが,細胞エッジの運動を駆動するエネルギー源のほとんどを占めていることになる.エネルギー保存則はエネルギーの創造と消失を否定するため,これら3分子の上流または下流にない他の分子活性がエッジ運動に関われば,3種のRho GTPaseだけでエッジ運動を復号できない.これを確認するため,我々はRho GTPasesの化学ポテンシャルの微小変化量に基づいて,エッジ速度VをCdc42,Rac1,RhoAの活性度(それぞれC,R,H),および活性度の時間微分の線形和で記述した.
ここで,V0,ai,bi (i = c, r, h)は係数である.この式は必要条件であるので,十分条件を満たすためにデータを用いた回帰を行い,モデル選択を行った(図3).上記の関係式より変数の有無から63個のモデル組み合わせを考えることができる.機械学習においてモデル選択をするとき,情報量基準(赤池情報量基準,ベイズ情報量基準)や交差検証を用いるのが一般的である.5種類の速度パターンとこれらのモデル選択法を各候補モデルへ適用した結果,我々はエッジ速度を精度良く予測する最適なモデル式を得た(図3).最適モデルは6つの変数を全て含み,時間微分の項の寄与度が高く,RhoA活性度のみが負の速度に寄与することがわかった(ah < 0).
(A)交差検証によるモデル選択.5つの速度パターンを1つのテストデータ,4つの学習データに分割する.学習データを用いてパラメータ推定を行い,回帰モデルの予測とテストデータの平均二乗誤差(MSE)を計算する.テストデータと学習データを交差させて同様の手続きを行い,MSEの合計をモデルの予測性能として評価する.63個の候補モデルに対してこのモデル検証を独立に適用し,予測性能に基づいてランク付けする.(B)最適モデルによるエッジ速度の予測.
本稿では,細胞内の複数の分子シグナルと細胞運動に関する時系列データを統合する手法を解説した.生物実験の計測技術の発展は目覚ましい.しかし,全ての種類の生体分子濃度について,時間変化を同時計測することはおそらく不可能である.したがって,個別に計測された各種時系列を同時計測に変換する前処理は今後重要なツールとなるに違いない.またデータサイエンスにおいて,機械学習アルゴリズムそのものよりもデータ整備と前処理が重要である.その点においてMTAはデータ駆動型生物学を行う上で必須の前処理アルゴリズムとなるであろう.データが整備されれば,時系列の回帰は高度な解析技術を必要としない場合が多い.物理学におけるデータは生物学に比べて観測しやすくノイズが少ないため,データに基づいて様々な法則が見出されてきた.生物学はこれまで観測の困難さとノイズの多さに悩まされてきた.MTAが様々な生物学の法則を見出す鍵となることを期待している.