YAKUGAKU ZASSHI
Online ISSN : 1347-5231
Print ISSN : 0031-6903
ISSN-L : 0031-6903
Symposium Reviews
Understanding of Multiple Effects of Low Molecular Weight Compounds with Factor Analysis
Tadahaya Mizuno Shumpei NemotoKatsuhisa MoritaHiroyuki Kusuhara
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2023 Volume 143 Issue 2 Pages 127-132

Details
Summary

The effects of drugs and other low-molecular-weight compounds are complex and may be unintended by the developer. These compounds and drugs should be avoided if these unintended effects are harmful; however, unintended effects are not always as harmful as suggested by drug repositioning. Therefore, a comprehensive understanding of complex drug actions is essential. Omics data can be regarded as the nonarbitrary transformation of biological information about a sample into comprehensive numerical information comprising multivariate data with a large number of variables. However, the changes are often based on a small number of elements in different dimensions (i.e., latent variables). The omics data of compound-treated samples comprehensively capture the complex effects of compounds, including their unrecognized aspects. Therefore, finding latent variables in these data is expected to contribute to the understanding of multiple effects. In particular, it can be interpreted as decomposing multiple effects into a smaller number of easily understandable effects. Although latent variable models of omics data have been used to understand the mechanisms of diseases, no approach has considered the multiple effects of compounds and their decomposition. Therefore, we propose to decompose and understand the multiple effects of low-molecular-weight compounds without arbitrariness and have been developing analytical methods and verifying their usefulness. In particular, we focused on classical factor analysis among latent variable models and have been examining the biological validity of the estimates obtained under linear assumptions.

1. 緒言

Polypharmacologyというタームが表すように,化合物の作用は複合的であるという認識は広く受け入れられるものと考えられる.この複合的な作用の中には,特に開発者など,人が認識していない作用も含まれ,人にとって有害であれば副次作用として忌避される.一方,かならずしも有害であるとは限らない.有益な例としてはドラッグリポジショニングが挙げられる.ドラッグリポジショニングは多くの場合適用拡大に過ぎないが,いくらかの例は薬物の新しい側面を見い出して新たな対象疾患へと適用するものが存在する(この点ではリポジショニングではなくリデベロップメントなどと呼ぶべきかもしれない).この複合的作用を分解して,既知も未知も含めて包括的に理解すれば,再構築,すなわち任意の現象を起こすことが可能になるのではと期待される.個々の化合物が包含する個別の作用にまず分解して各化合物を理解し,欲しいものを抽出して再構築することで望む作用を惹起する(Fig. 1).当研究グループの一つの方向性としてそのような課題に取り組んでおり,現在は分解と理解の段階にいる.

Fig. 1. Decomposition, Understanding, and Then Reconstruction

One of our goals is to cause the desired effect using low-molecular-weight compounds. For example, the design of a combination of chemicals that focuses on their decomposed effects could be achieved through the following processes: that is, decomposing the chemicals’ multiple effects, understanding the decomposed effects, and reconstruction by combinatory treatment of chemicals (Color figure can be accessed in the online version).

2. 化合物作用の分解と理解

極めて概念的な化合物の作用の分解と理解をどのように具体化すればよいか?われわれは,(1)化合物の作用を網羅的かつ比較可能な形で記述した後,(2)潜在変数モデルに供するアプローチを着想した(Fig. 2).第一の工程は端的に言えば化合物作用の数値化である.一般にわれわれは〇〇阻害剤や××アゴニストなどといったラベルにより化合物作用を表現(記述)している.これによりわれわれはスムーズに化合物の性質を認識し,相互に意思疎通可能となる.一方,このような表現は解釈性が高いものの,そもそも認識していない対象は表現できないほか,本質的にわれわれ人は高次元情報を認識することができない(次元の呪い)ため,離散的で低次元な表現に限られる.すなわち一般的な化合物の作用の表現方法は解釈性が高いものの情報量が少ない.この点,化合物を処理した培養細胞のトランスクリプトームデータは,試料中の基本的にはすべての転写産物を恣意性なく取得したものである.そのため人の認識の制限に囚われずに化合物の作用を記述可能であり,情報量が段違いに多いため,2000年頃のマイクロアレイ登場以来多くのプラットフォームで用いられてきた(連続的・高次元).1そのような歴史があるためかconnectivity map(CMap)やThe Library of Integrated Network-Based Cellular Signatures(LINCS)等,このコンセプトに基づくデータベースが他のオミクス階層よりも豊富な点は特筆に値する.2,3一点,このような文脈で出てくるトランスクリプトームデータは,多くの場合対照群に対して正規化されている.最もシンプルなものは対照群の平均値で処理群を除したものであるが,その場合ばらつきの影響を考慮できない.そのため,CMapを始めとしたデータベースでは対照群の平均値を引いた後に標準偏差で割り込むことで対照群の分布を仮定した確率的な値へと変換している(CMapの場合厳密には平均ではmedian,標準偏差ではなく規格化されたmedian absolute differenceを用いている).つまるところ単なる遺伝子発現量のプロファイルではなく,遺伝子変動を表したプロファイルとなっている.この遺伝子変動を表すプロファイルを指す明確かつ広く受け入れられたターミノロジーは知りうる限り存在しないため,本誌では便宜上応答プロファイルと称する.

Fig. 2. The Strategy for Decomposition and Understanding to Identify the Multiple Effects of Drugs

The effects of drugs can be described as the responses of cells treated with the target drug. Therefore, omics analysis is suitable because of its comprehensive and elemental nature. Multivariate data such as omics data can be described using a smaller number of latent variables under appropriate assumptions. Hence, we considered that a combination of chemicals could decompose the multiple effects of drugs (Color figure can be accessed in the online version).

次に分解のアプローチとしては潜在変数モデルの活用を考えた.世の中のデータ,観測値xは,多変量で測定されたとしても,実際は少数の潜在的な変数zに支配されていることがほとんどである.例えば5教科のテストの成績というデータは,理系の総合力,文系の総合力といった隠れた能力値があれば2変数で説明できるかもしれない.このような潜在的な変数を見つける統計学的枠組みを潜在変数モデルという.

潜在変数の同定方法は様々だが,基本的には高次元の観測空間にあるデータxを,より低次元の潜在空間に射影するような重みWを決定し,元のデータxと潜在変数zとを結びつけるアルゴリズムである.上述のように応答プロファイルにて化合物の複合的な作用を恣意性なく表現した後,分解するにあたり,作用を示す応答プロファイルをxその潜在変数をzとすれば,zこそ分解して得られる個別の作用に対応するという仮説を立てた.ちょうどこのような研究に取り組み始めた2016年頃は,機械学習のブラックボックスについて議論が盛んであった.非線形の潜在変数モデルとして変分オートエンコーダなどが流行っていたが,解析結果の解釈が困難との世情を鑑み,あえて最もシンプルな部類の潜在変数モデルである因子分析(Factor Analysis)に着目した.4因子分析は古くから様々な分野で用いられており,例えば心理学などで頻用されている.一般的に因子分析の枠組みは,各変数のスケールの違いの影響を避けるといった実践的な要請や解析上の数学的な要請より,標準化(解析対象データの分布が平均0,標準偏差1となるような変換)されたデータを入力とすることが前提としている.しかし,化合物の作用はアゴニズム・アンタゴニズム,治療効果・毒性といったように双方向性を持つ.このような空間で標準化することは,アゴニズムがあればアンタゴニズムがあることを仮定していることと同義である.多くの場合この仮定は正しいと思われるものの,例えば細胞死を惹起する作用など,不可逆な作用については適切ではないことが薬学的な解釈の観点から推察される.そこで,遺伝子総発現変動量が一定値(現状はデータ内の外れ値として定義している)を超えるものを除外した応答プロファイル空間での原点対称データ(ミラーデータ)とともに元データを因子分析に供することで,薬学的な解釈性を向上し,化合物の複合的な作用を分解する手法を開発した.5なお遺伝子総発現変動量が一定値以上のものを除外しない場合には,ミラーデータとともに因子分析することは標準化した際の因子分析と数学的に等価であることを特筆しておく.

応答プロファイルの因子分析により得られる結果は大きく二つである.一つは解析対象とした化合物の作用の各潜在変数に対応するスコア,薬学の文脈で言えば分解された個別の作用の強度である.この強度をレーダーチャートなどによりプロットすることで,われわれは化合物の複合的な作用を可視化することが可能となる.もう一つは潜在変数自体,つまり分解により得られる個別の作用であり,重み付きの遺伝子群として得られる.遺伝子群であるため,例えば既存遺伝子群との突合を評価するgene ontology(GO)解析やパスウェイ解析により,分解されて得られる個別の作用が生物学的にどのような意義を持つか理解することが可能となる.6実際,CMapデータベース収載の300弱の応答プロファイルを入力に開発した因子分析手法を適用すると,40ほどの潜在変数が得られるが,このうちの半数ほどは既存のGOなどと統計的に対応することを見い出している.半数というと少なく感じる読者もいるかもしれないものの,筆者としてはむしろちょうどよい塩梅だと考えている.なぜならほとんど一致してしまった場合には解析結果と既存知見とが変わらないことを意味しており,そのような手法からは新しい発見が生まれないためである.実際,GOなどと対応づかなかった潜在変数のスコアが高い化合物を列挙していくと,上位に強心配糖体が濃縮される潜在変数などが見つかっている.またここで哲学的に重要と思うことを一つ述べる.様々なデータサイエンスの手法は人の認識限界を超えたデータのハンドリングを可能とし,そのようなデータから本質的な情報を抽出する.しかしわれわれが高次元空間を認識できない以上,その妥当性の評価は別の角度から行わざるを得ない.このデータサイエンスの出力の生物学的妥当性の評価を,現代においてわれわれは既存知見と突合することで達成できる.すなわち情報学的・工学的技術発達と積み重なった科学的知見とが邂逅する現代だからこそ,昨今の爆発的な生命科学の発展があると筆者は愚考する.

3. 分解して理解する戦略ができること

データサイエンス時代の科学哲学も極めて重要なトピックであるが,薬学の文脈ではやはりこのようなアプローチがどう薬学の発展に貢献するかに尽きる.実際に複合的作用を因子分析により分解して理解する戦略により何が可能となったかについて簡単に紹介していく.筆者は無類の低分子化合物好きであるが,中でも特に魅力を感じるのは天然物である.これまでに多くの創薬シーズとなって重要な薬物を生み出しており,また現在でも様々な未知を内包すると期待される.また特に複合的な作用を多く持つだろうと考えられる.インドジャボクに由来する天然物Rescinnamineとその誘導体のSyrosingopineのデータをCMapより入手可能であったため,これらの天然物の作用を分解することがその理解の進展に資するか否かを検討した.7CMapのほかのデータセットを用いて因子構造を取得し,これらの天然物の作用を分解したところ,双方に共通する作用としてhistone deacetylase(HDAC)阻害,Rescinnamineのみに見える作用として脂質蓄積の作用が推定された(特徴的な潜在変数が見い出され,当該潜在変数を構成する重み付き遺伝子群の解析によりそれぞれHDAC阻害,及び脂質蓄積作用と推定された).一方,いずれもこれらの天然物との関係性は報告されていなかった.そこでin vitro試験系により,これらの作用の有無や強度を評価した.michican cancer foundation-7(MCF7)細胞を中心に様々な培養細胞を用いて解析したところ,確かに両者ともにHDACの蛍光基質を用いた試験によりHDAC阻害作用を持つことが見い出された.また興味深いことに,潜在変数のスコアの大小関係と実際のHDAC阻害活性とは対応していた(Fig. 3).さらに脂質蓄積作用についてはフィリピン染色などにより,Rescinnamineにおいてのみ認められることがわかり,この点も潜在変数のスコアと合致していた.以上は提案するアプローチにより作用を分離することで,天然物が持つ知られていなかった側面を抽出できるということを示している.そのほかの実験科学的な詳細は報告済みの論文に譲るとして,本結果の興味深い点として,天然物とその誘導体という構造が極めて類似した化合物の作用の違いを検出できたことが挙げられる.構造活性相関の有用性からもわかるように,一般に構造が類似している化合物の作用は類似すると考えられる.実際,SyrosingopineとRescinnmineは谷本係数による化合物構造の類似度ではもちろんのこと,全変数を用いた応答プロファイルの状態での類似度もCMapの300の化合物内でお互いが最も似ていると判定される.しかし,分解することでそのように構造が類似しているケースでも違いを認識することができたことは特筆に値する.構造が類似している場合でも毒性が異なるケースなどは少なからず存在し,毒性評価で頻用されるリードアクロスでは構造だけではなく生物学的な指標,それこそ応答プロファイルなども組み合わせたアプローチの重要性が提唱されて久しい.分離して理解する戦略はこのように構造類似化合物の作用弁別にも用いることが可能と期待される.

Fig. 3. Understanding the Effects of Natural Products

Decomposition of a natural product, rescinnamine, and its derivative, syrosingopine, was used to estimate their HDAC inhibitory effect, which had not been reported previously. Experimental validation with HDAC probes in MCF7 cells confirmed that the estimation was correct. See Nemoto et al. (2021) for more details. J. Nat. Prod., 84, 1283–1293 (2021).7) (Color figure can be accessed in the online version).

分解して理解する戦略の本質は,全体像を可視化する俯瞰的な解析を可能にすることで人の認識に依存しない高次元の情報を取得する点にある一方,個別の潜在変数を活用した解析も高次の情報を扱う多変量解析となるため,検出力の点でも有用であることが期待される.アメリカ食品医薬品局(U.S. Food and Drug Administration: FDA)承認薬の小胞体(endoplasmic reticulum: ER)ストレス誘導作用の評価について紹介する.8ERストレスは薬剤性肝機能障害の原因の一つであるなど,重要なストレス応答である.FDA承認薬の中にも潜在的にはERストレス誘導能を持つものがあるかもしれない.一般的な多変量解析では見い出しづらい性質を見い出すことが可能か否かをクエスチョンに設定し,分解して理解する戦略の性能評価を実施した.候補薬物として,CMapのデータより,ERストレスに関する文献報告がなく,FDA承認薬であり,かつ中程度のERストレス誘導能を持つと提案手法により推定された薬物を5剤選出した.また対照化合物として推定誘導能がほぼ0の3剤の化合物を選出し,解析対象とした.化合物の作用を推定する際に用いられる一般的な全変数の解析として,クラスタリングが挙げられる.代表的な作用既知の化合物を指標に,当該化合物と同じクラスターに属する場合には類似の作用を持つ,とするアプローチである.ERストレス誘導剤として有名なThapsigarginを指標にクラスタリングを実施したところ,候補薬物はいずれも比較的遠くに位置しており,類似しているとは判断できなかった.そこでin vitro試験系にてX-box binding protein 1(XBP1)のスプライシングなどによりERストレスの誘導能を評価したところ,候補薬物は濃度を漸増することでERストレスを確かに惹起することが明らかとなった(Fig. 4).このとき,同じ公比で濃度を漸増した対照化合物群は一切ERストレスを惹起しなかったことから,分解により得られる指標は,全変数を用いた解析では見い出しづらい潜在的なERストレス応答を確かに検出していることが示唆された.一方,本筋とは直接的には関係ないものの興味深かった結果を述べる.上記の潜在的ERストレス誘導能は様々な培養細胞で確認されたものの,個体ではいずれも認められなかった.このことは,分解して理解する戦略で入力としているトランスクリプトーム由来の応答プロファイルは,確かに高い表現力で化合物の性質を記述するものの,個体などより高次での応答への直接的な外挿性は難しいことを示唆している.真に化合物の性質をすべて捉えているのであれば,個体での曝露なども含めた性質を記述すると考えられるが,これらの結果から察するにそこまでの表現力はなく,やはりin vivoへと外挿する際には吸収,分布,代謝,そして排泄を考慮する必要があると考えられる.

Fig. 4. Detecting the Latent ER Stress Inducibility of Drugs

Decomposition analysis estimated the latent ER stress inducibility of several FDA-approved drugs, which had not been reported previously. Experimental validation based on XBP1 splicing, which is a well-known ER stress marker, in MCF7 cells confirmed that the estimation was correct. See Morita et al. (2020) for more details. Sci. Rep., 10, 13139 (2020).8) (Color figure can be accessed in the online version).

4. まとめ

本稿では,低分子化合物の複合的な作用を理解する上でわれわれが提案する「分解して理解する」戦略を,ツールとして用いた因子分析の詳説や背後にある哲学も交えながら紹介した.改めてこのアプローチによりできることをまとめる:

  • (1)   分解することで化合物の作用が複合的であることを可視化・認識
  • (2)   分解により得られる作用に基づいた頑健かつ検出力の高い解析

一点目は認識に関する本質的な点である.未知の対象を解析する際,一般的な試験では対象が持つ性質を推定した後,当該性質を評価可能な系を準備して,解析する.このアプローチは対象がはっきりしている場合には極めて高効率で有用であるものの,逆に対象が道である場合にはトライ&エラーの繰り返しとなってしまう可能性がある.例えば新たな天然物を合成できるようになったとして,当該天然物が殺細胞効果を持つところまでは簡単に評価できるものの,どのような機序で細胞死が惹起されているかを実験科学的に検証することは容易ではない.この点で一度網羅的に数値化した後,恣意性なく分解して可視化することにより,全体像を認識することができる.認識した後は順次実験科学的に検証していけばよい訳なので,認識がいかに重要であるかがわかる.

二点目はGO解析やパスウェイ解析の強みと同様である.これらの解析は,遺伝子という低い階層の解析ではなく,遺伝子群という一つ上の階層での解析となるため,頑健であり検出力が高い.この性質の一つの説明として,個別の遺伝子を評価する場合に実験誤差などにより差が検出できないケースを想定すると理解し易い.遺伝子群になることでそのようなゆらぎを吸収し,総体としての評価は頑健であり,また個別の遺伝子では気づけなかった変化を記述可能という点で検出力が高くなる.また一つ重要なことは,提案手法で得られる潜在変数,重み付き遺伝子群は極めて独立性が高い点である(因子分析全般の性質ではなく,今回用いている因子分析主成分法の特徴に由来する).一般にGOやパスウェイのデータベースは登録されている遺伝子群は互いの重複が大きいため,これらの濃縮率などで可視化しようとすればスコアが類似するものが出てしまう.本手法はこの点で,独立性の高い遺伝子群を恣意性なく取得する手法であるといえ,解釈性と一点目の可視化などの際に有用である.

本研究で示した一連の成果は,化合物が与える影響が人の認識の範疇にかならずしも収まらないことと,その包括的評価のためには人の認識外の情報も捉えた表現が必要であることを示唆する.以上の経験と思索に基づき,近年は「解析対象を計算機により数値化した後,数理学的に評価する」研究に邁進している.解析対象の連続的・多次元な表現を計算機により達成し,その後数理学的に再び人が認識可能な表現へと戻る戦略である.本稿が低分子化合物の未知側面の理解と活用を目指す研究者の研究の発展とその思索の一助になることを祈り,結びとする.

利益相反

開示すべき利益相反はない.

Notes

本総説は,日本薬学会第142年会シンポジウムS20で発表した内容を中心に記述したものである.

REFERENCES
 
© 2023 The Pharmaceutical Society of Japan
feedback
Top