遺伝子やタンパク質から遅れて糖鎖の生物学的な役割が重要視され、様々な実験データが蓄積されてきた。糖鎖とそれに関わる細胞や分子が生体内の多岐に広がっており、糖鎖を網羅的に解析するグライコミクスは、ゲノミクス、トランスクリプトミクス、プロテオミクス、メタボロミクスなどオミクス研究に並び、生命の解明に必要とされる。グライコミクスにおける糖鎖インフォマティクス研究では、糖鎖を扱う情報や解析するツール、データベースなどのリソースがここ20年で発展してきている。最近利用されている糖鎖構造の表記法やこれらの糖鎖情報を解析するために開発されてきたリソースについて紹介する。また、国際的に連携が行われているポータルサイトにより様々な糖鎖関連データベースが統合されている。これらの主なものについて紹介する。
生体内において多くの糖鎖は細胞のゴルジ体や小胞体で形成され、タンパク質や脂質などと結合し複合糖質として細胞の表面に局在している。糖鎖修飾をされた分子は糖鎖構造の違いにより機能制御の影響を受けることも知られており、糖鎖が生命維持に関わる発生や神経、感染、免疫等に重要な役割をもつことが明らかになっている。ここでは生体内における糖鎖機能の特徴として、糖鎖の生成および生体内の糖鎖の役割や影響について紹介する。
a.糖転移酵素翻訳されたタンパク質に糖鎖修飾を受ける過程で糖鎖が形成され、糖鎖はタンパク質のフォールディング判定に関わる。糖鎖構造の形成過程では、糖鎖関連遺伝子と呼ばれる糖鎖合成に関わる糖転移酵素や糖加水分解酵素により、単糖どうしが結合・切断されて糖鎖が組み立てられる。糖鎖関連遺伝子には、同じ単糖を転移する酵素であっても複数存在する。また生物種によっても単糖を転移する酵素の種類が異なる場合がある[ 1]。
b.シグナル伝達経路細胞内のシグナル伝達は糖鎖を認識・結合するタンパク質など複合糖質により調節・制御を受けている。糖鎖の変化によりタンパク質の機能に影響することから、様々な細胞表面やシグナル伝達にかかわる糖鎖と分子の研究が行われている。そして、生体内で頻繁にみられる O-GlcNAc糖鎖とリン酸化修飾によるシグナル伝達の重要性が示唆されており、 O-GlcNAcを転移する酵素や切断する酵素がないことによる胚の致死性が報告されている[ 2]。その他の例として、細胞分裂の調節に関与する因子の一つである線維芽細胞成長因子(FGF)は、FGF受容体に糖鎖が欠損していると結合できず、細胞内にシグナル伝達がされないことが知られている。また、細胞の運命を決定する発生過程に関わるNotchシグナル伝達経路にも糖鎖が関与する。この伝達経路の機能調節では、Notch受容体の上皮成長因子ドメインに修飾される複数の O型糖鎖の変化によりシグナル伝達機能が影響される。このような細胞膜内に存在するタンパク質受容体のシグナル伝達の特性に欠かせない糖鎖修飾が報告されている[ 3]。
c.疾患との関係糖鎖を形成する糖鎖関連遺伝子の発現の異常や、糖鎖を認識する分子による機能制御の異常などが病気の原因に関わることが知られている。またシグナル伝達経路の特性に影響を与えることから疾患との関連性も高い。疾患の原因およびその分子の機能を特定するためには、その分子機構の解明だけでなく、そこに関わる糖鎖の特定、すなわち糖鎖形成過程にまで遡り糖鎖関連遺伝子の同定を必要とするため、糖鎖が関与する生物学的プロセスは、幅広いことがわかる。
糖転移酵素の機能・活性の研究においては一種類の酵素について深く研究されているが、関与する様々な生物学的プロセスとの関係性を明らかにするのは困難である。近年は質量分析による糖鎖の同定(グライコミクス)や、糖鎖アレイやレクチンマイクロアレイによる糖鎖と相互作用する分子の親和性情報などが抽出され、網羅的に解析できる技術が発達してきた。これらにより、データが蓄積され、バイオインフォマティクスによる解析が可能になってきた。
糖鎖構造の表記は、人にとって可読性の高い表現法や機械で扱うデータとして扱いやすい表現法など、情報を扱う状況に応じて様々な表現法として生み出され、広く普及されている表現形式が複数ある。これらを相互変換しながらバイオインフォマティクスでは扱う必要があったが、後に説明するGlyTouCanで整理されている。また、糖鎖情報とその他オミクスデータに対して、データ間の統合や参照ができるようなデータの標準化が重要である。そのため、データの意味を伴わせて格納するセマンティックウェブ技術が用いられデータの標準化にオントロジーが使用される。ここでは糖鎖情報として扱うデータについて、主な糖鎖の構造表現法やオントロジーおよび利用できるデータベースを紹介する。
a.糖鎖構造の表記法糖鎖は、複数の単糖が結合して連なった構造をとり、単糖どうしが結合可能な箇所は複数あるため直鎖形状だけでなく分岐構造や環状構造を形成する。さらに単糖は異性体構造や様々な官能基をもつなど非常に多くの種類がある。これら単糖と結合の組み合わせが多様なことから糖鎖構造は複雑になる。
糖鎖構造は文字列表記や図やシンボル表記などさまざまな方法で表現されている。文字列による表記では線形で表すIUPAC[ 4, 5]やWURCS[ 6, 7]、CSDB Linear[ 8]、LinearCode[ 9]などがあげられる。単糖と結合情報を区別して複数行にわたって記述するGlycoCT[ 10]やKCF[ 11]も利用されている。
質量分析(MS)実験により同定される糖鎖構造では、糖鎖を単糖単位に切断し予測するため、同じ分子量をもつ単糖や結合様式まで特定できないことや、単糖がどの単糖と結合するかについて不明確で可能性を示すようなフラグメント構造を含む曖昧さの問題がある。このような不確実な構造情報をデータベースから検索したり、類似構造を計算させるための曖昧性に対応した表記が考案されている。糖鎖構造表記について曖昧性を含めた特徴を 表1に示す。また、糖鎖構造のシンボル表記や文字列による表記について記述する。 図1では分岐構造をもつ O型糖鎖のコア2構造を用いて、同じ糖鎖構造に対するそれぞれの表記例を示す。
表記の種類 | 表現形式 | 曖昧性の表現 | ||
不明確な単糖情報を含め多様な単糖表現に対応 | 不明確な結合情報の表現に対応 | 単糖に連結する不確実なフラグメント構造表現に対応 | ||
IUPAC | 線形 | ― | o | ― |
WURCS | 線形 | SMILES-like | o | o |
GlycoCT | グラフ | 辞書 | o | ― |
KCF | グラフ | 自由記述 | o | ― |
CSDB | 線形 | SMILES | o | o |
LinearCode | 線形 | ― | o | o |
SNFGのシンボル表記で表した糖鎖構造をそれぞれIUPAC、WURCS、CSDB、LinearCode、GlcoCT、KCFの表記法に従い表示している。
SNFG[ 12]は糖鎖構造の描画における単糖のシンボルを形状やカラーで標準化し、多くの研究者に利用されている表現方法である。様々な単糖と結合情報を記述したグラフとして表すことができる。 図2Aは N型糖鎖構造を用いた例である。また、 図2Bのように単糖や結合の曖昧性も表示でき、不明確な単糖は色なしで表し、結合が不明な場合は「?」で示す。さらに、一部の構造について連結する単糖が定まっていないフラグメント構造の表現を可能にしており、 図2Cの表記はグラフの左側の構造が右側の構造のどこかに結合することを表している。 図2D, Eは単糖組成のみを表している。
(A)は単糖、結合が確定している構造を表し、(B)は一部の単糖や結合情報が不明確な構造を表す。(C)は左側の二単糖が(A)の構造のどこかに結合することを表現するフラグメント構造を表している。(D)は、(A)に対応する単糖組成を表し、(E)は(A)、(B)に対応する環状構造の単糖組成を表す。
IUPACは、論文などで炭水化物を表記するため人が可読しやすい形式を提唱している[ 4, 5]。単糖を3文字の慣用名で定義しており、糖結合の表現方法がIUPAC表記の種類によって異なる。表記の種類として、立体配置や環サイズを含めた拡張型(extended form)、立体配置や環サイズを省略した凝縮型(condensed form)、結合のロカントを表示する括弧やハイフンを省略した短縮型(short form)の3種があり、様々な文献やデータベース等で凝縮型( 図1)が最も利用されている。本来のIUPACではアノマーにαおよびβを使うが、インフォマティクスで扱いやすくするために 図1のようにaおよびbと表現する。
iii.WURCS (Web3 Unique Representation of Carbohydrate Structures)WURCSは国際糖鎖構造リポジトリGlyTouCan[ 13]で利用されている。化合物構造を原子レベルで線形表記する形式であるSMILESに似た表現法により多種多様な単糖や糖鎖構造を表現できる。糖鎖構造を固有の構造として管理でき、曖昧性にも対応させた表記法である。
iv.GlycoCTGlycoCTは糖鎖生物学と糖鎖研究をサポートするためのEUROCarbDBプロジェクト[ 14]の一環として考案された表記である。様々なデータベースの糖鎖構造を統合した最初のデータベースGlycomeDB[ 15]で利用され、多くのユーザーに普及されている。糖鎖構造表記の単糖名にはIUPACを採用し、統一性と可読性を保持しながらあらかじめ修飾について辞書を作成している。また不確実な単糖や結合情報に対応した表記である。
v.CSDB (Carbohydrate Structure Database) LinearCSDB Linearは炭水化物データベースCSDBで使用される標準表記である。機械と人が読み取り可能な表記法として作成され、微生物などにみられる多種多様な単糖の表記にSMILESを採用し、単糖や結合の曖昧性も記述できる。
vi.KCF (KEGG Chemical Function)KCFはKEGGで利用されており、糖鎖構造をグラフとして表すために単糖と糖結合をそれぞれノードとエッジとして扱う。単糖に2次元の座標情報が付加されている。また、単糖名にIUPACを使用しているが、特に統一した規則がないため単糖名表記に汎用性を持たせることができる。
vii.LinearCodeLinearCodeは糖鎖構造を簡潔に表現し、機械と人が読み取り可能な表記法として作成された。先に述べた糖鎖構造表記法に比べて短い文字列で表現する特徴を持ちながら構造の曖昧性も表現できる。
b.オントロジー糖鎖が関与する生物学的プロセスをよりよく理解するには、糖鎖や糖鎖関連分子、糖鎖関連実験データ等に関係する複数のデータベースの組み合わせや統合が必要となる。様々なデータ間の相互参照やデータ統合の方法としてセマンティックウェブ技術があげられる。参照・統合する各データの表現にはリンクトデータを実装するための手段として、共通の標準であるResource Description Framework(RDF)が用いられる[ 16]。RDF化したデータの概念をマッピングするオントロジーを利用することにより、データ間の情報を簡単に識別・抽出および統合することができる。グライコミクスデータのオントロジーはGlycoRDFオントロジー( http://www.glycoinfo.org/GlycoRDF/)[ 17]として、様々なオントロジーを格納するBioPortal( https://bioportal.bioontology.org/)[ 18]で公開されている。また、糖鎖はタンパク質や脂質に結合して複合糖質として機能する。これは糖鎖のみの情報にとどまらないことや、複合糖質研究の進展に伴い、複合糖質の機能情報を格納するためのオントロジーGlycoConjugate Ontology(GlycoCoO)が、GlycoRDFと連携して公開されている[ 19]。
c.リポジトリやポータルここでは糖鎖情報の登録・管理をするリポジトリと公開されている糖鎖関連情報をまとめたポータルサイトについて記述する。GlyCosmos、GlyGen、Glyco@expasyは連携して情報を共有しており、無料でアクセスできる。
現在それぞれのリポジトリにてデータを登録することができる。将来的にUniCarb-DRに登録した情報がGlyTouCanとGlycoPOSTに自動で登録される予定である。
上記の様々な表記法で現した糖鎖情報を処理するため、糖鎖構造を扱うソフトウェア・ライブラリがオープンソースで開発された。主にJavaとpythonで開発されたEUROCarbとWURCSFrameworkを紹介する。
最も古いJavaライブラリがEUROCarbDBプロジェクト[ 14]にて開発されたもので、GlycoCT形式の糖鎖構造を中心に開発された。このEUROCarbライブラリは今でも多くのJavaソフトの基盤として利用されている。糖鎖構造リポジトリGlyTouCanが公開されてからは、WURCS形式が基本となり、データが多いGlycoCTとWURCSの変換機能に加え、糖鎖構造を扱うライブラリとしてWURCSFrameworkが開発された( https://gitlab.com/glycoinfo/wurcsframework)。
python言語のライブラリとして、glypy[ 26]とglycowork[ 27]が公開されている。glypyは主に質量分析(MS)で得られた糖鎖構造(単糖組成)などを扱うために開発され、糖鎖構造のアラインメントも実装されている。一方、glycoworkはAIやマイニングのために開発され、本ライブラリから多くの糖鎖構造のデータセットを取得することが可能となっており、機械学習機能が備わっている。例えば、インフルエンザに結合する糖鎖構造や生物種別の糖鎖構造のデータセットを提供している。
なお、糖鎖の立体構造やモデリング用のライブラリもいくつか開発されている。例えば、glycosylator[ 28]は糖タンパク質のモデリングに加え、糖タンパク質の立体構造中の糖鎖を抽出する機能が備わっている。doGlycans[ 29]も同様に、MDシミュレーションのための糖タンパク質の糖鎖モデル生成ツールである。ウェブ上で公開されている同様なツールとしてGLYCAM-WEB[ 30]もよく利用されている。
一方、生物学者向けの解析ツールも数多く開発されている。PDBに登録されているデータの中から、糖鎖構造を抽出および検証するためのウェブツールがGLYCOSCIENCES.de[ 31]により提供された。その後、糖鎖構造のアラインメント[ 32]やマイニングツール[ 33, 34]をウェブリソースとして提供するRINGS[ 33]も開発され、糖鎖構造の変換など多くの糖鎖解析ツールが提供されていた。近年、JavaScriptベースのウェブツールが多く開発され、これらを 表2にまとめた。特に糖鎖構造の描画ツールが多く開発され、それぞれの長所や短所について記述した。
ツール名 | 説明 | URL |
GlycoGlyph | 単純なインタフェースで糖鎖構造を描画でき、GlyTouCanの検索が可能である。描画した糖鎖構造の質量も計算でき、Glycamへのリンクを通して立体構造の予測に用いることができる。しかし、曖昧な構造の描画はできない。 | https://glycotoolkit.com/Tools/GlycoGlyph/ |
SNFG Edit | CSDBの糖鎖構造を描画できるJavaScriptベースのウェブツールである。多様な糖鎖構造を描画することができ、詳細な修飾情報まで指定することが可能である。 | http://csdb.glycoscience.ru/snfgedit/snfgedit.html?expert=0&destination=structure |
SugarSketcher | 単純なインタフェースで糖鎖構造を描画でき、GlycoCT形式やSVGフォーマットの出力が可能である。しかし、曖昧な構造の描画はできない。 | https://glycoproteome.expasy.org/sugarsketcher/ |
SugarDrawer | SugarSketcherを元に改変したSugarDrawerは曖昧な構造も描画可能にし、GlyTouCanの検索も可能である。 | https://glyconavi.org/Draw/index.php |
DrawGlycan-SNFG | SNFG形式をサポートする描画ツールであり、質量分析で得られる糖鎖のフラグメントも描画できる。 | http://www.virtualglycome.org/DrawGlycan/ |
GlycoDomainViewer | タンパク質を入力し、糖鎖付加部位を表示するツールである。 | https://glycodomain.glycomics.ku.dk/ |
NetOGlyc 4.0 Server | アミノ酸配列を入力し、 O型糖鎖の付加部位を予測するツールである。 | http://www.cbs.dtu.dk/services/NetOGlyc/ |
NetNGlyc 1.0 Server | アミノ酸配列を入力し、 N型糖鎖の付加部位を予測するツールである。 | http://www.cbs.dtu.dk/services/NetNGlyc/ |
なお、ダウンロードしてインストールするソフトとして、よく利用されているのはGlycoWorkBench[ 35]である。質量分析のデータを処理し、糖鎖構造のアノテーションをつけることができるようにサポートするソフトである。本ツールはEUROCarbDBプロジェクト内で開発され、糖鎖描画ツールGlycanBuilderも含まれている。GlycanBuilderは後に更新され[ 36]、独立した新しいバージョンではWURCSや曖昧な構造なども扱えるようになった。
b.アルゴリズム糖鎖構造を解析するアルゴリズムの開発に当たって、当初は糖鎖のデータベースが90年代に米国で開発されたCarbBank[ 37]しか存在しなかった。しかし、登録されたデータに重複など入力ミスが含まれていたため、KEGGにて糖鎖構造データベースGLYCANが構築され、CarbBankの情報が整理された。それによりKEGG GLYCANの検索機能として糖鎖構造の比較プログラムが必要となり、糖鎖の分岐構造を考慮した木構造のアラインメントアルゴリズムKCaMが考案された[ 32]。また、糖鎖の種類別に糖鎖のスコア行列もKCaMに基づいて開発された[ 38]。さらに、マルチプルアラインメントも計算できるアルゴリズムMCAWも考案された[ 39]。
糖鎖構造の機能の一つとして、細胞表面に存在する糖鎖がウイルスやレクチンなどに認識され、結合することにより、細胞内へのシグナル伝達が引き起こされたりすることがあげられる。この糖鎖機能を調べるための技術として糖鎖アレイが開発され、チップ上に合成された糖鎖に、蛍光ラベルされた結合する分子を載せて結合親和性を測定する技術である。Consortium for Functional Glycomics(CFG)が糖鎖アレイ実験を多く実施し、その結果をデータベースとして公開した[ 40]。CFGの糖鎖アレイ実験の結果では、それぞれの実験で用いられた分子に対して相互作用を示す糖鎖構造とその親和性のデータを取得できる。これら、高い親和性を示す糖鎖構造を入力として、それぞれの糖鎖アレイ実験に対して、糖鎖認識結合部位の解析が行われた。この解析には糖鎖マルチプルアラインメントアルゴリズムであるMCAWが使用され、MCAWによるアライメントの解析結果がプロファイルとして表現されている( 図4)。当時のCFGのほとんど全ての実験データセットに対してMCAWを実行し、その結果をまとめたデータベースとしてMCAW-DBが公開された[ 41]。
糖鎖のマルチプルアラインメントアルゴリズムMCAWの解析結果の例として、Galectin-2の糖鎖認識プロファイル(B)とその入力構造の一部(A)を示す。詳細は: https://mcawdb.glycoinfo.org/detail.html?5110
他にも木の確率モデル[ 42]や頻繁な部分木構造(frequent subtree)アルゴリズム[ 34]も開発されたが、当時は糖鎖構造のデータベースが整っていなかったため、応用が難しかった。近年はGlyTouCanの公開により、多くの糖鎖構造が収集されやすい状況になったため、深層学習の応用も見かけられるようになった。例えば、convolutional neural network (CNN)を用いて糖鎖構造を学習するモデル[ 43]やウイルスの認識する糖鎖モチーフの学習モデル[ 44]が開発されている。
また、糖鎖関連データベースが整ってきたことから、糖鎖の動的な機能を解明するために、糖鎖が関連する代謝パスウェイのシミュレーション研究が開始されつつある。糖鎖の合成パスウェイ予測ツール[ 45]から糖鎖遺伝子の反応パラメータを含めた数理モデルを構築し、初期糖鎖構造や細胞内の濃度情報から合成されうる糖鎖構造を予測することが可能になった。質量分析によって測定された糖鎖構造を用いた検証もできており、今後、シグナル伝達経路との関係も解析できるようになると期待できる。
この20年間で糖鎖インフォマティクス研究が急速に発展し、糖鎖構造をはじめ糖鎖関連データもソフトウェアも整備されてきた。糖鎖アレイ実験も糖鎖合成技術も進歩しており、糖鎖インフォマティクス研究がますます重要になる。糖鎖は腫瘍細胞においても変化すると知られており[ 46, 47]、バイオマーカー開発などに糖鎖が重要な役割を果たすと考えられる。
細田 正恵
木下聖子教授のもとで創価大学在学時の卒業研究から糖鎖インフォマティクスを学び、2019年3月に同大学で博士(工学)を取得後、同大学理工学部の助教に就く。現在は2021年に開設された糖鎖生命システム融合研究所にて助教として研究活動を行っている。 |
木下 聖子
1999年に米国ノースウェスタン大学よりコンピュータ工学の博士号を取得。2006年からは京都大学化学研究所バイオインフォマティクスセンターにて糖鎖インフォマティクス研究を開始。現在は創価大学教授として、教育と研究を続けながら糖鎖コミュニティのために便利な糖鎖インフォマティクスツールやデータベース・ポータルを開発し、生体システムにおける糖鎖の機能解明への応用研究を実施している。 |