JSBi Bioinformatics Review
Online ISSN : 2435-7022
総説
がんゲノム研究における変異シグネチャー解析の展開
松谷 太郎
著者情報
ジャーナル オープンアクセス HTML

2022 年 3 巻 2 号 p. 75-87

詳細
Abstract

がん細胞のゲノムには多数の突然変異が含まれており、それらは変異プロセスと呼ばれる何らかの原因によって引き起こされたものである。一部の変異プロセスは、変異の種類(一塩基置換や構造バリアント等)や周辺の塩基情報に依存した特定の変異を引き起こしやすいことが知られており、そのような変異のパターンを変異シグネチャーと呼ぶ。個人の腫瘍に含まれる多数の突然変異は複数のシグネチャーが作用した結果と解釈することが可能であり、そのようなシグネチャー解析は変異をその原因と結びつけるという意味で発がん過程の分子的なメカニズム解明の一助となる他、個別化医療の現場におけるバイオマーカーとしての利用が期待されている。本総説では、変異シグネチャーの推定手法としてオミクスデータに対する教師なし学習を中心に概説した後に、がんゲノム研究における応用例を紹介し、今後の展望について議論する。

1.はじめに

近年の高速シーケンシング技術の発展は目覚しく、それに伴う大規模なオミクスデータの蓄積と広く公開されたデータベースの存在は、生物学の広範な分野に渡り大きな影響を与えた。がんゲノム研究もその例に漏れず、シーケンシング技術の進歩による恩恵を享受している。正常細胞と比較したとき、がん細胞のゲノムには多数の突然変異が含まれる。発がん過程に注目すると、これらの突然変異は、腫瘍の悪性化に直接関与すると考えられているドライバー変異と、その他のパッセンジャー変異に大別される。従来のがんゲノム研究では、標的のゲノム領域のみを対象に調べるターゲットシーケンシングに基づきドライバー変異の解析に注力されることが多かった。しかし、全ゲノム・全エクソームシーケンシングが安価となった現在では、多数のサンプルのパッセンジャー変異を含む全変異が、ICGC(International Cancer Genome Consortium)やTCGA(The Cancer Genome Atlas)などのプロジェクトによりカタログ化されている。これにより、がんゲノム上の網羅的な変異を対象とした解析が可能となった他、サンプルサイズの向上により新たなドライバー変異の同定が進むなど、シーケンシング技術の発展と大規模なオミクスデータの蓄積は、がんゲノム研究を大きく前進させた。

2.古典的な変異シグネチャーと教師なし学習による推定

がん細胞に含まれる多数の変異は、いずれも変異プロセスと呼ばれる何らかの原因によって引き起こされたものである。変異プロセスは特徴的な変異群を残す場合があり、そのような変異群の観察は、発がん過程に寄与した変異プロセスの推論に利用できる。歴史的に、このような形でバイオマーカーとして機能する変異は変異シグネチャー(mutation/mutational signature)と呼ばれてきた。ヒト全ゲノムの解読が完了していない頃から、既にがん抑制遺伝子の候補として知られていたp53等のターゲットシーケンスを用いていくつかの変異シグネチャーが報告されている。喫煙者の肺がんゲノムでは、非喫煙者のそれと比較して、p53遺伝子座にC>A(X>X′という表記は塩基Xが塩基X′に変異したことを表す)変異が有意に多く含まれていることが示され、タバコ煙に含まれる化学物質がゲノム上にC>A置換を誘導するという分子生物学的な知見を補強する結果を得た[1]。また、悪性黒色腫や基底細胞がんのp53やPTCH遺伝子座における、紫外線暴露と関連するC>Tシグネチャーも古くから報告されている[2, 3]。

一方で2012年、Nik-ZainalとAlexandrovらは、21人の乳がん患者(N=21)の全ゲノム解析を通して、確率論的なパラダイムで説明可能な変異シグネチャーの存在を報告した[4]。これらのサンプルは、いずれも全ゲノムシーケンシングされたもので、パッセンジャー変異を含め、可能な限り全ての変異がカタログ化されている。Alexandrovらは、これらの変異のうち、まず一塩基置換のみに注目し、それを置換塩基の種類と、変異した塩基の5′側及び3′側に隣接する塩基の種類を考慮した変異タイプに分類した。ここで、置換変異は塩基の相補性を考慮すると、重複を除きC>A、C>G、C>T、T>A、T>C、T>Gの6パターン、隣接塩基の種類は4×4=16パターン存在するため、全部で変異タイプはV=96種類となる。このような手順で、要素Mnvn番目のサンプルに含まれるv番目の変異タイプに該当する変異数を表す、N×Vのカウント行列Mを構成できる。

21サンプルの変異カウント行列Mを俯瞰すると、全てのサンプルにおいて、3′側の隣接塩基がグアニンであるシトシンがチミンへの一塩基置換(N[C>T]G:Nは任意の塩基を表す)を起こしている様子が多く観察された。それがよく知られる5′-メチルシトシンの脱アミノ化[5]と関連している可能性を見出したAlexandrovらは、他の変異の原因(すなわち変異プロセス)についても同様に特異的な変異パターンが得られるのではないかと考えた。これを検証するための数学的なアプローチとして非負値行列因子分解(Non-negative Matrix Factorization:NMF)を採用し、変異カウント行列に適用することで、変異プロセスごとの変異パターン、すなわち変異シグネチャーを抽出することに成功した。

NMFの枠組みでは、変異カウント行列 Mは、カタログ中に含まれるK個の変異プロセスが各サンプルでどの程度の強度で作用しているのかを示すN×Kのアクティビティ行列 Aと、K個の変異プロセスがV種類の変異タイプに関してどの変異を引き起こしやすいかを示すK×Vの変異スペクトル行列 Sの積で近似することを目指す(図1)。これを数式として表すと以下のようになる:   

M AS .
ここで変異スペクトル行列 Sの各要素は変異プロセス方向に足し合わせた値が1.0となるように正規化されている(∑vSkv=1.0)。よって、V次元のベクトル Skk番目の変異プロセスが一度ゲノムに作用したとき、V種類の変異タイプのうちどの変異が起きるかを表す確率値として捉えることができる。また、アクティビティ行列 Ankの実数値はサンプルnにおいてk番目の変異プロセス由来の変異がいくつ存在するかを表している。このようにアクティビティと変異スペクトルを分けて考える都合上、従来研究における「変異シグネチャー」という単語と比較して、Alexandrovらの用いている「変異シグネチャー」は多義的であることに注意されたい。いくつかの文献では変異スペクトル行列の行成分そのものを変異シグネチャーと呼ぶこともあるが、本概説では誤読を避けるため以後「ある変異プロセス、及びそれに対応するアクティビティ成分と変異スペクトル成分の総体」を変異シグネチャーと呼称する。尤もらしいアクティビティ行列 Âと変異スペクトル行列Ŝは、変異カウント行列Mとその近似値であるASとのフロベニウスノルム最小化問題の解として得ることが可能であり、それを実現する最適化のアルゴリズムとしてMultiplicative updateアルゴリズムが用いられている:   
 , Ŝ = arg min A , S M AS F 2 .
ここで、 X F 2 Xのフロベニウスノルムを表す。Alexandrovらは、変異シグネチャーの個数についてK=5としてNMFを適用したところ、変異スペクトル行列の推定解 Ŝには前述のN[C>T]Gにピークを持つものを含め特徴的なピークを持つシグネチャーを複数得た。

図1:変異シグネチャー推定の概略図

サンプル数 N×変異の種類数Vの変異カウント行列 M(左上)を、K個のシグネチャーを用いて、アクティビティ行列 A(右上)と変異スペクトル行列 S(右下)に分解する。推定されたシグネチャーの例としてSBS4と呼称されるシグネチャーの変異スペクトルを左下に示している。この棒グラフは横軸が96種類の変異タイプ、縦軸が各変異を引き起こす確率を表しており、SBS4ではC>A変異(棒グラフ水色)を集中的に引き起こす。

翌年の2013年、Alexandrovらは上記のパイプラインを、30のがんタイプに渡る全7,042サンプルから構成される変異カウント行列に適用し、網羅的な変異シグネチャーの抽出を行った[6, 7]。結果として21個のシグネチャーが見つかり、その変異スペクトルは特定の変異のみが顕著に現れやすいものから、96個の変異が均等に現れやすいものまで多岐に渡っていた(図2)。また、シグネチャーのアクティビティに注目したとき、がんタイプ特異的なシグネチャーの存在や、対照的にどのがんタイプでも普遍的に見られるシグネチャーの存在が明らかとなった。更に一部の置換変異がゲノム上の局在領域で集中的に見られるカタエギスという現象が上述の乳がんサンプルの解析で認められていたが、今回の解析で改めて複数のがんタイプに見られる現象であることが判明した。カタエギスは特にTCNトリヌクレオチド領域でのC>T、及びC>G置換(T[C>T]N、T[C>G]N)によって特徴づけられる。このカタエギスの特徴は後述するAPOBECタンパク質の作用によるシグネチャーの変異スペクトルで見られるピークと一致しており、それらの関連が示唆されるなど、様々な生物学的知見が得られる結果となった。

図2:本稿で紹介したシグネチャー一覧

各シグネチャーの変異スペクトルを可視化したもの。横軸が変異の種類、縦軸がその変異が起きる確率を表す。それぞれ色ごとに置換変異の種類が異なり、C>A、C>G、C>T、T>A、T>C、T>G置換を水色、黒色、赤色、灰色、緑色、ピンク色の棒グラフで示している。数値データはCOSMICデータベースより取得した(https://cancer.sanger.ac.uk/signatures/sbs/)。

その後、シーケンスデータの拡充やシグネチャー推定手法の発達に伴い、本総説の執筆時点では60個のシグネチャーが報告されており[8]、それらはCOSMIC(Cancer Of Somatic Mutations In Cancer)データベースに全てまとめられている(https://cancer.sanger.ac.uk/signatures/sbs/)。従来の変異シグネチャー解析に対するこれらの功績の斬新な点は、分子生物学的な事前知識を必要とせず、大規模なオミクスデータから構成された変異カウント行列に教師なし学習のNMFを適用するだけで、解釈性の高いシグネチャーセットを得られたことにある。これを可能とさせた背景には、1章で説明したような高速シーケンシング技術の発達と、それによるパッセンジャー変異を含めた大規模な変異カタログの存在があることは言うまでもないだろう。

現在までに発見されたシグネチャーの例として、重要な変異原性であると考えられている2つのシグネチャー、SBS2とSBS13を紹介する。COSMICに登録されている一塩基置換に関するシグネチャーは、Single Base Substitutionを縮めたSBSの後に発見された順に番号を振るよう命名されている。これらの変異スペクトルではSBS2でC>T、SBS13でC>AとC>Gにピークが見られ、変異塩基の5′側の隣接塩基がチミンであるという共通項を持つ。現在、これらの変異プロセスとして有力視されているのが、抗ウイルス作用を持つことで知られるAPOBECタンパク質である。APOBECは一本鎖DNA(single-stranded DNA:ssDNA)を基質としてデオキシシチジンを脱アミノ化することでデオキシウリジンへ変化させる酵素であり、塩基除去修復と併せてこの作用が進化史の中でレトロウイルスの複製を阻害する役割を果たしてきたと考えられている[9]。一方で、APOBECの作用は正常なssDNA上のシトシンを変異させることで発がんを促す危険性を孕んでおり、一般的なDNA複製によりチミンへ変異させたり、塩基除去修復後のAPサイトにおいてもポリメラーゼの複製エラーによって他塩基への変異が起こる可能性がある[10]。更に後の酵母ゲノムを用いた実験[11]により、APOBECの基質として特に5′側の隣接塩基がチミンであることが好ましいと判明し、これがSBS2とSBS13の変異スペクトルの特徴と一致したことから、この2つのシグネチャーの変異プロセスがAPOBECタンパク質に関連することが確定的となった。

上記のように各変異プロセスに対応する変異スペクトルを明らかにすることは、ゲノムに変異が導入される分子メカニズムの解明の一助となる。本総説ではAlexandrovらの研究に立脚し、オミクスデータに対する教師なし学習としての変異シグネチャー解析に主眼を置き、幅広く概説を行う。まず、3章で変異シグネチャーの推定における困難性と改良の歴史を主に数理的な側面から解説し、4章ではin silicoで推定された変異シグネチャーの実在や、各変異プロセスとの関連がどのように確かめられてきたかを紹介する。最後に5章では近年のシグネチャー解析の動向と、がんゲノム研究における他分野への応用に向けた展開等を紹介する。

3.変異シグネチャー推定の困難性と改良

変異シグネチャーの推定手法は、2012年にAlexandrovらが用いたMultiplicative updateアルゴリズムによる単純なNMFから、現在に至るまで開発が続いている。問題意識に合わせて様々な方向性で改良が為されてきたが、本章では、まず後の理解のために1.NMFと確率モデルの基本的な概要を述べたのち、2.シグネチャー数選択の困難性、3.アクティビティ行列のスパース性という二つの問題点に焦点を置いて、その発展を追う。

3.1 NMFと確率モデル

変異シグネチャー解析の黎明期からその推定に用いられてきたNMFは、元来、自然言語処理の分野において文書のクラスタリング等で頻用された手法である[12]。前章でも述べたように、変異シグネチャー推定におけるNMFは変異カウント行列 Mを、シグネチャーのアクティビティ行列 Aと変異スペクトル行列 Sの積で近似する。このとき、最小化すべきMASの誤差として様々な距離指標を用いることができるが、多くの手法がフロベニウスノルム、またはKLダイバージェンスを採用している。A, Sの大域的な最適解を陽に求めることは不可能であり、ランダムに初期化されたA, Sの値を交互に繰り返し最適化を行うことで、推定値Â, Ŝを求めることが多い。これを実現する最も単純なアルゴリズムがMultiplicative updateアルゴリズムであり、フロベニウスノルムを最小化する更新式は以下のように表される:   

A n k A n k v M n v S k v v ( A n S v ) S k v ,   S k v S k v n M n v A n k n ( A n S v ) A n k .
この更新の度にMとその近似行列 ASのフロベニウスノルムが小さくなることが保証されている。Multiplicative updateアルゴリズムは補助関数を用いることで目的となる距離指標の上限を最小化するMM(Majorization - Minimization)アルゴリズムの一種であり、上界関数の求め方によって、収束性や計算速度など向上させたい指標に応じた手法を構築することができる[13]。

NMFはパラメータの全要素が非負であるという要請から、上記のような乗法アルゴリズムが開発され独自の進化を遂げたが、これを確率的な生成モデルと解釈し、実際にシグネチャーの推定に応用した例も存在する。PLSI(Probabilistic Latent Semantic Indexing)も自然言語処理の分野で文書における単語の出現頻度を確率的にモデリングするために開発された手法[14]だが、グラフィカルモデル(図3)に示すように潜在変数であるシグネチャーのインジケータzを介して、アクティビティpza)と変異スペクトルpmz)の両方をカテゴリカル分布と仮定した生成モデルになっている。このとき、NMFのアクティビティ行列と変異スペクトル行列の各要素を、それぞれサンプル方向とシグネチャー方向に正規化した値がカテゴリカル分布のパラメータとして解釈可能であり、PLSIとの接続が分かるだろう:   

p ( z n i = k ) a n k = A n k k A n k ,  
  
p ( m n i = v z n i = k ) s k = S k v v S k v = S k v ,
  
p ( m n i = v a , s ) = k a n k s k v .
ここでInn番目のサンプルに含まれる変異の総数を表し、添字nin番目のサンプルにおけるi番目の変異を示すインデックスである(1≤  i ≤  In)。PLSIでは、サンプルとそれに含まれる全ての変異が観測される周辺尤度を定式化することが可能であり、近似された周辺尤度を目的関数としてEMアルゴリズム等でパラメータasを最適化することができる。実はPLSIの尤度最適化とNMFのKLダイバージェンス最小化は等価であることが示されており[15]、このことから、NMFの目的関数である距離指標も現在はフロベニウスノルムではなくKLダイバージェンスが用いられることが多い。NMFを確率モデルのパラダイムで解釈することは、古典的な階層ベイズモデルなどへの拡張を容易にし、後述するLDAをはじめ、様々な目的に合わせた多様なシグネチャー推定手法が開発された。

図3:PLSIのグラフィカルモデル

mnizniはそれぞれn(1≤nN)番目のサンプルにおけるi(1≤iIn)番目の変異についての変異タイプとそれを引き起こしたシグネチャーの種類を表すカテゴリ変数である。anは各サンプルの相対的なシグネチャーアクティビティ、skは各シグネチャーの変異スペクトルを表す。

3.2 シグネチャー数選択の困難性

変異シグネチャー推定における課題の一つとして変異カタログ中に含まれるシグネチャー数Kの推定が難しいことが挙げられる。多くのシグネチャー推定手法においてKはハイパーパラメータとして設定されており、その値によって抽出されるシグネチャーの構成は大きく異なるため、正しいKの値を決めるための何らかの基準が必要とされている。行列分解を行ったときの誤差や、確率モデルと見做したときの尤度では、Kを大きく設定するほど良いモデルと判断されるため、シグネチャー数を選択する基準としては不適当であり、そのようなモデルの過適合を防ぐための操作が必要となる。

最初期の推定手法[4]では、CPCC(cophenetic correlation coefficient)という指標が、シグネチャー数Kの選択に用いられている。このパイプラインでは、まず想定されるKのレンジを設定し、同じKK′とランダムな初期値のパラメータの下で1,000回のシグネチャー推定を繰り返し行う。つまり、K′ごとに1,000個のシグネチャーセットが推定されるが、ここでCPCCは得られたシグネチャーセット間の類似度を評価する。同じK′の下でCPCCの値が高い、すなわち得られたシグネチャーの構成が似通っている場合は、推定の頑健性が高いことを意味するため、ロバストで望ましい解を得ていると言える。Kの値が大きいとき、モデルは複雑になるため、得られるシグネチャーセットのバラツキが大きくなる傾向があり、CPCCの値は低くなりやすい。そこで、ある閾値以上のCPCCが担保されたKの中で、十分に行列分解の誤差が小さかったK′を選択すると、過適合していない適切なシグネチャーセットが得られる公算が高い。このような推定の頑健性を頼りにシグネチャー数の選択を行う手法は広く受け入れられており、現在de novoシグネチャー推定のデファクトスタンダードとなっているSigProfilerExtractor[16]でも、クラスタリング解析で盛んに利用されているシルエット分析を用いてシグネチャーセットの安定性を評価しシグネチャー数を決定している。

一方で、前節で解説したようにNMFをPLSIのような確率的モデルと解釈して拡張を行った場合、シグネチャー数の決定は所謂モデル選択の問題として扱うことができる。モデル選択では通常、尤度にモデルの複雑さを評価する正則化項(ペナルティ項)を加えた情報量基準を用いてシグネチャー数のようなハイパーパラメータを決定する。最も著名な情報量基準としてAIC(Akaike's Information Criterion)[17]やBIC(Bayesian Information Criterion)[18]が存在し、実際にシグネチャー数の決定にこれらを用いた手法も複数存在する[19, 20, 21]。また、PLSIにおいてアクティビティと変異スペクトルを表現しているカテゴリカル分布の事前分布にディリクレ分布を導入したLDA(Latent Dirichlet Allocation)[22]というモデルを用いたシグネチャーの推定手法がいくつか存在する[23, 24]。事前分布を持つパラメータの学習は、データが観測された下でのパラメータの事後分布を求めることを目的とし、特にLDAにおけるパラメータ推定は、MCMC(Markov Chain Monte Carlo)法を用いたギブスサンプリングや、パラメータの結合事後分布が因子分解可能であると仮定した下での変分推論が用いられる。変分推論では、周辺尤度の下限であるELBO(Evidence Lower Bound)という関数を最小化することを目的とする。このELBOもシグネチャー数選択の基準として機能することが実験的に確かめられている[24]。

ここまで、シグネチャー数選択の困難性とそれを解決する目的で開発された手法をいくつか紹介していたが、未だにどのようなデータに対しても確実に正しいシグネチャー数を推定可能な手法は開発されていない。これは次節で紹介するアクティビティ行列がスパースになりやすいという行列分解そのものの難しさとも関連している。更に、正しいシグネチャー数を選択できたとしても、得られたシグネチャーセットの中に、既にその実在が確かめられた既知のシグネチャーがなければ、解析結果の信頼性には疑問が残る。このように、既に知られているシグネチャーが得られるか否かという観点から、SensitivityやSpecificityを用いて各種シグネチャー推定手法の評価を行なった研究も存在する[16]。また、臨床的な応用が見込まれている以上、情報学的なアプローチのみに頼ってシグネチャーを同定することは難しいと考えられ、現在スタンダードに用いられているCOSMICデータベースのシグネチャーセットは、いずれもPCAWG(Pancancer Analysis of Whole Genomes)プロジェクトのメンバーらによる様々な評価を経て登録されたものである[8, 25]。これについては4章にて詳述する。

3.3 アクティビティ行列のスパース性

変異シグネチャーは様々な原発巣や組織で普遍的に見られるものの他に、がんタイプ特異的に見られるものも多い。SBS7というシグネチャーは太陽光等の紫外線暴露によるC>T特異的なシグネチャーであるが、悪性黒色腫等の皮膚組織以外の検体から検出されることは殆どない。このため、複数のがん種に渡る大きなデータセットから網羅的に変異シグネチャーを抽出するとき、皮膚がん以外のサンプルにおけるSBS7のアクティビティはゼロになることが期待される。肺がんサンプルで特異的に見られる喫煙関連シグネチャーのSBS4など、その他複数のシグネチャーについても同じことが言えるため、大規模なシグネチャー解析の結果得られるアクティビティ行列はスパースなものであることが望ましい。しかし、単純なアルゴリズムによるNMFでは、このアクティビティ行列のスパース性を考慮することが難しく、本来他の変異プロセスに由来する変異であるにも関わらず、関係のない別のシグネチャーによって説明しようとしてしまう。この問題はsignature bleedingと呼ばれており[26]、de novoでのシグネチャー抽出を困難にさせてきた大きな課題の一つである。初期のシグネチャー推定[5, 6]では、がんタイプ毎にデータを区切ってシグネチャーの推定を行うことでこの問題を回避してきた。しかし、その場合は、がんタイプに依らない普遍的なシグネチャーが、各がんタイプの実験で別個に抽出されるため、それらを結びつけるためのマッチングを行う必要があるなど別の問題が生じてしまう。このため、アクティビティ行列のスパース性を考慮して巨大なデータセットから網羅的にシグネチャーを抽出する技法の開発が求められてきた。

この問題に対する一つの解決策は、前述のようにNMFを確率的モデルと解釈し、アクティビティの背後に適切な事前分布を置くことである。PLDA[27]やHiLDA[28]は前節で紹介したLDAを拡張したモデルであり、がんタイプごとに異なるハイパーパラメータを設定したディリクレ分布をアクティビティの事前分布とすることで、がんタイプごとのシグネチャーの現れやすさをモデリングしている。CTM(Correlated Topic Model)[29]もLDAの亜種であり、アクティビティの共相関パラメータを導入することで、同時に現れやすいシグネチャーの組を考慮して推論を行なっている[30]。SignatureAnalyzer[31, 32]は、現在COSMICに登録されている大部分のシグネチャーを決定したPCAWGプロジェクトにおいて主導的な役割を果たした解析ツールであり、アクティビティと変異スペクトルの背後に共通のパラメータを持つ事前分布を置くことで、目的関数に行列がスパースであることを要求する正則化項が現れるように設計された[33]。

また、アクティビティのスパース性に関連して、一部のシグネチャーが支配的に大量の変異を導入すると、他のシグネチャーの寄与がノイズとして扱われ正しいシグネチャーセットを検出できないという問題も知られている。上述の紫外線暴露に由来するSBS7は1つのサンプルに対して100万超の一塩基変異を引き起こすことがあり[8]、多くの手法ではこのようなhypermutatedなサンプルは除外して解析が行われている。このようなサンプルをまとめて解析するための手段として変異カウント行列を行方向(サンプル方向)に正規化する手法も提案されている[16]。

4.変異シグネチャーの実験的検証

これまで見てきた通り、変異シグネチャーはシーケンシングデータを元に得られた変異カウント行列にNMFを適用することで推定される。しかし、NMFのような教師なし学習は、実データに対する正解が存在しないため、得られた結果の実験的な検証が難しい。例えばPCAWGプロジェクトでNMFベースの手法により同定されたSBS45というシグネチャーは、過去の報告でサンプル調製時のDNA断片化に伴うコンタミナントであると判明しており[34]、そのようなアーティファクトが検出されてしまうリスクはin silicoの技法には常に付き纏う。シグネチャー推定手法の良し悪しを論ずるには、人工的に生成されたアクティビティ行列と変異スペクトル行列から模擬的な変異カウント行列を作成しシミュレーション実験を行えば良い[35]が、実データに対して得られたシグネチャーセットを検証するには別の手段を講じる必要がある。

In silicoで推定されたシグネチャーを、それに対応する生物学的な変異プロセスと対応づけることは、実際にそのシグネチャーが体内で活性を持っていることを証明するための最も強力な手段である。本総説の執筆時点ではCOSMICデータベースに登録されている60個のシグネチャーの内、42個の一塩基置換シグネチャーには対応する変異プロセスが提案されている。しかし、残り18のシグネチャーに関しては全くの未知であり、更に対応する変異プロセスが提案されている42個の内、21個のシグネチャーのみが実験を通してその関連性が認められている。この章では、いかにしてシグネチャーと対応する変異プロセスが決定されてきたかを紹介する。

統計的な検定を通してシグネチャーと関連のある因子を見つけることは、間接的ながらもそのシグネチャーの実在性を示すための根拠となる。初めて複数のがんタイプに渡るシグネチャーを決定した研究[5, 6]では、解析の結果得られたアクティビティ行列を説明変数として、一般化線形モデルを用いて各サンプルを供した患者年齢と相関があるかを解析している。結果として現在SBS1とSBS5として知られているシグネチャーのアクティビティが複数のがんタイプにおいて年齢と正の相関を持つことが分かった。SBS5の変異プロセスについては未だ解明されていないが、SBS1は2章で述べたようにその変異スペクトルの特徴から5′-メチルシトシンの脱アミノ化と関連していると考えられている。このような体内で恒常的に起きている変異プロセスに対応するシグネチャーのアクティビティが年齢と相関することは、SBS1が実際に5′-メチルシトシンの脱アミノ化を表現したシグネチャーであると推論するに足る証拠である。更に悪性黒色腫のサンプルでは、SBS7のアクティビティと年齢の相関が見られ、こちらもSBS7の変異プロセスが、太陽光を浴びるなど日常的に起こりうる紫外線暴露であることの証左になると考えられている。また、一部のサンプルにおいてのみ見られる外因性の変異プロセスとシグネチャーを結びつけるためには、群間比較としてKolmogorov-Sminov検定が用いられることが多い。SBS4は肺がんサンプルで頻繁に見られるシグネチャーだが、解析に供されたサンプルを喫煙歴のある患者由来の群と、非喫煙者の患者由来の群に分けたとき、SBS4のアクティビティは前者の群で有意に高くなりやすいことが判明したため、このシグネチャーはベンゾ[a]ピレンなどのタバコ煙に含まれる発がん性物質によるものであると考えられている。

系統の確立された細胞株に変異源を暴露させ、再シーケンシングを行うことでその変異源に対応するシグネチャーを決定することは、シグネチャーの検証手段として最も信頼性の高い手法である。Nik-Zainalらはヒトp53遺伝子がノックインされたマウス胎児線維芽細胞に、ベンゾ[a]ピレン、紫外線光、アリストロキア酸を暴露し、どのような変異が導入されるのかを観察した[36]。結果として、それぞれの変異源を暴露したサンプルでSBS4(ベンゾ[a]ピレン)、SBS7(紫外線光)、SBS22(アリストロキア酸)に酷似した変異プロファイルが得られ、各シグネチャーはこれらの外因性変異プロセスによるものであると強く支持された。2章でも紹介したSBS2とSBS13がAPOBECタンパク質と関連することを実験的に確かめたのはChanらの成果である[11]。APOBECは一本鎖DNA(ssDNA)を基質とするため、温度変化によってssDNAを生成する酵母株にAPOBECファミリーの一つであるAPOBEC3A/Bを作用させ、変異スペクトルのピークに一致するT[C>N]Nが多く見られることを発見した。

5.近年のシグネチャー解析の動向と応用へ向けた展開

本章では発展的な話題として、近年のシグネチャー解析の動向や、その他のがんゲノム研究への応用事例、展望などを紹介する。

5.1 変異スペクトルの決定を伴わないシグネチャー解析

4章で紹介したように一部の変異シグネチャーについては、既に実験を通して実在が確認されているものも存在する。既知シグネチャーの変異スペクトルに一定の信頼が置けるようになった現在では、改めて変異スペクトルの推定は行わずにアクティビティのみを推定する手法も登場し始めている。そのような手法は、従来のde novoでシグネチャーの抽出を行う手法(de novo extraction)に対して、フィッティング(fitting)アプローチと呼ばれる[26]。フィッティング手法では、新規のシグネチャーを発見することができない代わりに、NMFにおける未知数を大きく減らすことができるため、高速な計算や正確なアクティビティの推定が可能になる。3.2節で触れたように、現在知られているシグネチャー全てを用いてサンプル中の変異を説明しようとするとsignature bleedingの問題が発生してしまう。そのため、フィッティング手法ではde novo extractionと比較して、よりスパースで解釈性の高いアクティビティを得ることに尽力している手法が多い。初期のフィッティング手法であるdeconstructSigs[37]は、最終的に寄与が6%以下と推定されたシグネチャーのアクティビティをゼロにして改めて正規化を行うというヒューリスティクスを採用している他、近年開発されたSigLASSO[38]はNMFを確率モデルに拡張し、アクティビティの事前分布にラプラス分布を置くことで、LASSO(L1ノルム正則化)による変数選択と同じ効果をもたらしている。ただ、上述したように純粋なフィッティング手法では新規のシグネチャーを発見することができず、未発見のシグネチャーが含まれうる新規データを解析に用いる際には従来のde novo extractionを用いた方が良い場合も多い。いずれにしろ、今後シグネチャーの変異プロセス決定と検証がより進むにつれ、フィッティング手法の開発と利用が盛んになると考えられる。

5.2 一塩基置換以外の変異シグネチャー

これまでV=96種類の一塩基置換のみに注目したシグネチャーを紹介してきたが、実際には隣接塩基より遠くの塩基を参照する置換変異シグネチャーや、挿入/欠失(insertion/deletion:indel)、染色体の構造異常(Structural Variation:SV)に関するシグネチャーなども存在する。これらのシグネチャーもNMFのスキームを用いて推定可能であり、基本的に変異カウント行列の構成が異なる以外の差異はないが、変異の規定の仕方によっては通常のNMFでは推定が難しいケースも存在する。

変異の種類をこれまでと同様に6種類の一塩基置換として、周辺の塩基情報を隣接塩基のみから、より遠くの塩基を考慮するように拡張することは初期のシグネチャー解析の頃から試みられている[6, 7]。変異プロセスがターゲットとなる塩基を決定するために周辺の塩基を補助情報として利用することは、前述した5′-メチル化シトシンの脱アミノ化シグネチャー(SBS1)に代表されるように一般的な機序として知られている。このような周辺塩基の情報は変異文脈と呼ばれており、隣接塩基以外の周辺塩基に注目することは自然なモチベーションである。実際にAPOBEC3タンパク質では、APOBEC3AがYT[C>N]AN置換を引き起こしやすいのに対して、パラログであるAPOBEC3BはRT[C>N]AN置換を引き起こしやすいことが知られている(Yはピリミジン塩基、Rはプリン塩基を示す)[11]。置換された塩基の2個先まで上流/下流の塩基種類を考慮する場合、変異タイプの数はV=44×6=1,536種類となり、これを一般化すると、置換塩基のC個先まで変異文脈を考慮するのに変異タイプ数はV=42C×6だけ必要になる。シグネチャー推定に用いるNMFの推論アルゴリズムの時間計算量はVに依存するため、C≥3の変異文脈を考慮して大規模データに適用することは現実的でない。この問題を解消するために、pmsignatureではシグネチャー毎に各変異文脈と置換変異に独立なカテゴリカル分布を導入することでパラメータ数を大幅に削減し、長距離の変異文脈でも考慮することが可能になっている[23]。

挿入/欠失(indel)も生体内で普遍的に見られる変異であり、COSMICデータベースには18種類のindelシグネチャーが登録されている。近年のPCAWGプロジェクトの一環で推定されたこれらのシグネチャーは、マイクロホモロジーの有無などを考慮した83カテゴリに基づいて構成される変異カウント行列から得られたものである(synapse.org/#!Synapse:syn11801742参照)。このカテゴリ分類では2塩基以上の長いindelは塩基の別を問わずにカウントされており、塩基特異的なindelを引き起こす変異プロセスを認識することが不可能であるため、今後より詳細な変異タイプの規定を可能にする手法の開発が待たれる。Indelシグネチャーの一例として、ID13シグネチャーは、チミン二量体において1つのチミンを欠失させるシグネチャーであり、悪性黒色腫のサンプルで高い活性が見られることや、3.2節で紹介したSBS7とアクティビティに正の相関が見られることから紫外線暴露によるものであると考えられている[8]。COSMICデータベースにはindelシグネチャーに加え、二塩基置換(Double Base Substitutions:DBS)とコピー数変異(Copy Number:CN)に関するシグネチャーが登録されている他、同じくPCAWGプロジェクトから染色体構造の大規模なバリアントに関するシグネチャーが提案されている[39]。しかし、いずれにおいても、SBSシグネチャーと比較して変異プロセスが未知のものはかなり多く、実験的な検証を含め今後の報告が待たれるところである。

5.3 変異シグネチャーを用いてがんの進化を追う

4章にて紹介したようにSBS1とSBS5の二つのシグネチャーのアクティビティは、サンプルを供した患者の年齢との間に正の相関を持つことが知られている。また、がんタイプ間でそれぞれのシグネチャーに由来する変異数を見積もったところ、SBS1は胃がんや大腸がんなど一部のがんタイプでより多くの変異を引き起こしていた。これらのがんタイプは新陳代謝が高く細胞分裂が速い、いわゆるターンオーバーの高いがんタイプであることが知られている。このため、SBS1のアクティビティが受精卵の状態からシーケンスされるまでの平均的な細胞分裂速度を表す指標として活用できる可能性があることが報告された[40]。このように一部のシグネチャーのアクティビティは、細胞の「時計」のような役割を果たすため、発がん過程を追うためのツールとしての利用が期待される[41]。また、上述のSBS1やSBS5など普遍的にアクティブなシグネチャーと比較して、発がん過程における初期/後期に特にアクティビティが高くなりやすいシグネチャーがそれぞれ存在することが知られている。Gerstungらは、バルクシーケンシングされた腫瘍サンプル中で変異が細胞ごとにどの程度保存されているかを解析し、肺がんにおける喫煙関連シグネチャー(SBS4)や悪性黒色腫における紫外線暴露に関するシグネチャー(SBS7)などの外因性の変異プロセスに由来するものが初期の変異を引き起こしやすく、APOBECタンパク関連のSBS2やSBS13などは初期から後期にかけて変異数が増えていくことを報告した[42]。

更に、変異シグネチャーは、がんのクローン進化を追跡するための確率的モデリングにも用いられている。クローン進化のパラダイムでは、共通祖先細胞を起点として、独立に変異を獲得した複数のサブクローンが互いに競合しながら進化し、シーケンスされたサンプルは特に生存能力の高いクローンの集合によって構成されるものと考える[43]。クローンごとに有する突然変異の種類は異なり、性質の異なる細胞が集合して一つの腫瘍を形成する現象は腫瘍内不均一性と呼ばれる。腫瘍内不均一性は殆どのがんタイプで見られる現象であり、薬剤耐性とも関わりがあるため、どのような経過で腫瘍の全体像が形成されたのかを追跡することは、臨床的にも興味の持たれる所である[44]。しかし、現在主流のバルクシーケンスを用いた解析では、サンプルに異なるクローン由来の細胞が混在しているため、いくつのクローンから成るのか、また各々の細胞がどのクローンに所属するのかを明らかにする必要があり、多くの手法が開発されてきた。Rubanovaらは、上述のように、がん進化の過程で変異を導入する支配的なシグネチャーが変化することに着想を受け、サンプル中の変異の保存度とシグネチャーを同時にモデリングし、シグネチャーアクティビティの時間的な軌跡を推定するTrackSigを開発した[45, 46]。TrackSigのアイデアを腫瘍内不均一性推定のためのクローン分解に応用したものとしてCloneSig[47]やSigTracer[48]などの手法が存在し、これらはクローンごとにシグネチャーアクティビティが異なるように設定されている。特に細胞内因性の変異プロセスでは、そのアクティビティが所属するクローンごとに異なると考えることは自然であり、シミュレーション実験においてシグネチャーを利用しない他手法と比較して優れた結果を示した。このように変異シグネチャーは、シグネチャーそのものの解析だけでなく、がん進化モデルなどに組み込む「補助情報」としての価値を持つ。

5.4 その他の分野への応用

Sherlock-Lung Studyは2,000を超える非喫煙者の肺がんサンプルから、新たなリスク因子や細胞内因性変異プロセスを同定するために整備されたコホートである[49]。肺がん患者の疫学的な研究は、主に喫煙者を対象としたものが多いため、本プロジェクトは非喫煙者を対象としていることから注目を受けており、変異シグネチャー解析は特にデータのスクリーニングに活用された。Sherlock-Lung Studyに供されたサンプルのWhole-genome シーケンスにおいてコールされた変異を元にシグネチャー解析を行ったところ、あるサンプルで喫煙に関与するシグネチャー(SBS4)が優勢なアクティビティを持ち、実際には喫煙者であったそのサンプルが誤って非喫煙者と報告されていたことが判明した。また、別のサンプルでは、紫外線暴露に関与するシグネチャー(SBS7)の寄与が高く、病理医の検討も併せて、そのサンプルの原発巣が肺ではなく皮膚扁平上皮がん由来の転移クローンであったことを突き止めるのに貢献した。このようにシグネチャー解析は時に疫学的な研究の現場でも有意義な示唆を与えるポテンシャルを秘めている。

更に一部のシグネチャーに関しては、特定の治療法の奏功や予後を決定する予測因子としての役割が期待されている。SBS3シグネチャーは相同組み替え修復欠損(Homologous recombination deficiency:HRD)によって生じるシグネチャーであり、乳がん、卵巣がん、膵臓がんでよく見られる。PARP(poly ADP-ribose polymerase)阻害剤と呼ばれる薬剤は、HRD陽性の卵巣がん患者において特に有効であることが知られており[50]、現在HRDの検査はBRCA1/2遺伝子に病的なバリアントが検出されるかどうかによって判別されている。SBS3の高い活性はHRD陽性を示す根拠となり得るため、治療方針を決定する際の追加の判断材料として検討されている[51]。一方で、このような用途でシグネチャーを活用する場合、5.1節で紹介したようなフィッティング系の手法を用いて患者の変異プロファイルからシグネチャーのアクティビティを推定する必要があるが、これらの手法では偽陽性のシグネチャーが検出される場合もあることに注意したい[26]。

6.まとめ

本稿では、シーケンシング技術の発展に伴って成熟を始めた変異シグネチャー解析について、これまでの潮流を概説し、現在の課題や展望について述べた。大規模なオミクスデータと教師なし学習を組み合わせたシグネチャー解析は、2012年にAlexandrovらがNMFを変異プロファイルに適用したのが始まりであり、がんゲノム研究の中では比較的歴史の浅い研究領域である。そのためか、現在も新たなシグネチャーは発見され続けており、他領域と比べれば参入の余地がある研究課題だと筆者は感じている。シグネチャー推定に用いられる数理的な手法は未だ不完全な部分が多く、各変異プロセスとの対応づけや、一塩基置換以外のシグネチャーへの理解など、残された仕事はかなり多い。バイオインフォマティクスに精通した研究者がそれらの課題に取り組むことで、発がん機序の解明やシグネチャーの他分野への応用が更に進むことが期待される。

References
著者略歴

松谷 太郎
早稲田大学先進理工学研究科電気・情報生命専攻博士後期課程3年、日本学術振興会特別研究員。機械学習などの情報学的手法をゲノミクスに適用することで生物学的に新たな知見を得ることをモチベーションに研究を行っている。特に発がんメカニズムに興味を持ち、変異シグネチャー解析や腫瘍内不均一性に注目した系統推定などに力を入れている。

 
© 2022 日本バイオインフォマティクス学会

This article is licensed under a Creative Commons [Attribution-NonCommercial-ShareAlike 4.0 International] license.
https://creativecommons.org/licenses/by-nc-sa/4.0/
feedback
Top