情報管理
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
記事
NBDC RDFポータル:セマンティックに統合された生命科学データの利用を加速するために
川島 秀一
著者情報
ジャーナル フリー HTML

2016 年 59 巻 4 号 p. 232-240

詳細
著者抄録

生命科学分野の多種多様なデータベースは,それぞれが異なる語彙や形式によって記述されており,横断的にデータを統合して利用する際の妨げになっている。この問題を解決するため,JSTバイオサイエンスデータベースセンター(NBDC)と情報・システム研究機構 ライフサイエンス統合データベースセンター(DBCLS)は,生命科学データベースを開発している日本の研究グループに対しRDFの採用を推奨してきた。RDFを採用することで,データベース間の相互運用性が高まり,データの自動処理が進むと考えられている。また,NBDCは,日本で開発されている生命科学分野のRDFデータを一覧できるように,ポータルサイトの運用を開始した。本稿では,生命化学データベースをRDF化することの利点や,国内および世界における状況を述べ,NBDC RDFポータルについて紹介する。

1. はじめに

生命科学分野では,膨大かつ多様なデータが生み出されており,それらのデータから多くのデータベースが構築されている1)。個別のデータベースはそれぞれで有益なものであるが,それらを必要に応じて組み合わせて利用することで,さらにその有用性が高まることは想像に難くない。残念ながら,個々のデータベースは,それぞれに異なる文脈,異なる語彙,異なる技術を用いて構築されている。そのため,現状ではそれらを組み合わせて使う際には,そのたびに人が介在する必要があり,そのことが複数のデータベースを利用した研究・開発の律速(ボトルネック)になっている。この問題を解決するべく,バイオサイエンスデータベースセンター(National Bioscience Database Center,以下NBDC)では,データベースが生命科学やバイオ産業の推進に不可欠な研究基盤であるという思想の下に,異なるデータベースを合して利用できるようにするための技術開発やデータ整備を行っている2)。特に,セマンティックWeb技術を応用することで,既存のデータベースを再構築し相互運用性を高める研究開発を,情報・システム研究機構のライフサイエンス統合データベースセンター(Database Center for Life Science:DBCLS)とともに取り組んでいる。

本稿では,特に生命科学に関して,知識をRDF化することの利点や,国内や世界における状況,およびNBDCの取り組みの一環として,2015年11月から運用が開始されたNBDC RDFポータル3)について解説したい。

2. データベースのRDF化,そのメリット

World Wide Webは,HTMLで記述された,主に人が読むことを前提とした文書のネットワークとして発展してきた。これに対して,セマンティックWebは,Webページ(を指すURI)にメタデータを付与することで,コンピューターがページの意味(セマンティクス)を扱えるようにし,高度な情報検索を実現しようとするものである4)。そして,セマンティックWebにおける中心的な技術として,情報を記述する方法であるRDF(Resource Description Framework)5)が挙げられる。当初,RDFによってWebページのメタデータを記述することが想定されていたが,現在では,データそのものもRDFを用いて記述するようになってきている。RDFそのものの説明は他稿6)に譲るとして,本節では生命科学データベースをRDF化することの利点について解説する。

2.1 共通フォーマット

RDFにすることで得られる利点として,異なるデータを,同じフォーマットで利用できるようになる,ということが挙げられる。この利点は,直感的にも理解しやすいだろう。生命科学系のデータベースは,フラット・ファイル・フォーマットと呼ばれる,データベースごとに独自のフォーマットで記載されたテキストファイルや,リレーショナル・データベースのテーブルをダンプしたもの,コンマ区切りのテキスト,XML形式など,それぞれ異なるフォーマットで配布されている。当然のことながら,これらを,人の手を加えることなく,統合して扱うことはできない。また,解析に必要な情報を抜き出すには,それぞれのフォーマット用に,目的別にパーザーと呼ばれるプログラムを作る必要がある。データベースによっては,コンピューターから自動的にアクセスするためのAPIと呼ばれる仕組みを準備してくれていることもあるが,APIの仕様はデータベースごとに異なるので,それぞれ学習する必要がある。

それに比べると,すべてのデータがRDF形式で得られると,そのままRDFストアと呼ばれるデータベース・マネジメント・システムにロードし,検索することが可能となる。

2.2 グローバルなID

生命科学データベースでは,同じものを指しているにもかかわらず,表現が異なるために自動的には統合できない,という問題がある。具体的に,著名なタンパク質データベースであるUniProt7)のデータベースエントリーで考えてみよう。たとえば,P48431というIDは,UniProt内ではユニークであるが,他のデータベースで別のIDとして使われていない保証はない。そのため,データベース名+IDという組み合わせを使って特定のIDを参照するという方法が採られている。しかし,それでもデータベースによってuniprot:P48431やup:P48431,さらにはswissprot:P48431など,独自の表現方法が使われるため,統合するには事前知識が必要となる。このように,データベースでは一般的に,特定のシステム内で矛盾や曖昧性がないように設計されているが,そのシステム外(すなわちインターネット全体)まで含めると,意味が曖昧にならざるをえない。

しかし,URIはインターネット全体で一意である。そのため,世界のどこにいても,Webブラウザーで特定のURIにアクセスすれば,同じ情報が表示されるのである。RDFでは,URIの組み合わせで情報を表現するため注1),異なる組織で独自に開発されたRDFでも,参照するIDが曖昧にならないという利点がある。

2.3 オントロジーの利用による概念や語彙の明確化と共通化

RDFでは,何らかの概念を記述する際に,オントロジーを利用することになっている。情報科学,特に人工知能分野では,「オントロジーとは概念化の仕様」であると説明されている8)。遺伝子や,タンパク質,ゲノム,疾患,薬剤等,これらは生命科学の研究対象であるが,こういった概念をオントロジーとして明示的に定義するのである。具体的には,前述のuniprot:P48431はURIであり注2),特定のタンパク質に関するデータベースエントリーを指しているが,それは人間が知っているからわかるだけで,コンピューターには知り得ないことである。それをUniProt RDFでは,オントロジーを用いて,

uniprot:P48431 rdf:type core:Protein. 注3)

  • と記述することで,uniprot:P48431は,(UniProtが定義した)Proteinという概念をもつ具体例であることをコンピューターが処理できるようになる。

生命科学の分野では,近年,世界的にさまざまな専門領域のオントロジーが開発されており,BioPortal9)やThe OBO Foundry10)等のポータルサイトから一覧できる。既存のオントロジーを用いて,RDFデータを記述することで,異なるRDFデータ間で,概念や語彙のレベルで共通化がなされるため,さらに統合して利用しやすくなる。

2.4 暗黙知を減らす効果

生命科学データベースには,実は明示的に記述されていない情報が多く存在しうる。たとえば,動的にWebページが生成されるようなデータベースサービスを考えてみよう。そこで複数の項目が同じページに並んで表示されていれば,(サービスの意図通り)それらは関連していると人間は自然に認識するだろう。しかし,そのロジックは,Webページを生成するプログラムコードに埋め込まれているだけで,データに明示的に書かれているわけではない場合がありうる。RDFは,そういった関係も明示的に記述せざるをえず,コンピューターにとって曖昧な情報を減らすことにつながる。また,すでに2章3節で述べた,オントロジーの利用も,暗黙知を減らすことに寄与する。

2.5 グラフ構造

生命科学では,今日でも,全く新しい知見が頻繁に得られ,それに伴い,既存の定義を再考しなければならないことが少なくない。現在,主流のデータベース・マネジメント・システムであるリレーショナル・データベースでは,一度設計したテーブル構造に変更を加えることは,一般に面倒な作業であり,掛かるコストが大きい。しかしながら生命科学の知識を扱っていると,そういったことが少なくない。その点,RDFは,グラフ構造のデータベースなので,新規の項目を導入する場合も,その分のRDFデータを追加するだけであり,既存のスキーマの変更が不要であることが多い。

2.6 W3C標準規格

RDFや,オントロジーを記述するOWL,SPARQL注4)等は,World Wide Web Consortium(W3C)の標準規格なので,特定の個人や組織,企業の思惑等で,仕様が変更されてしまうということがなく,仕様という観点からは安定した技術として利用できる。また,標準規格があることから,さまざまなソフトウェアが開発され,相互の互換性も高い。

3. 世界におけるRDF化の取り組み

2章では,生命科学データをRDF化することの利点を挙げたが,ここで,日本を含め世界的に生命科学データベースの分野でRDF化がどの程度行われているか概観したい。

ティム・バーナーズ・リーによりセマンティックWebが提唱されたのが,2001年のことである。大規模なデータベースとしてはSIB(Swiss Institute of Bioinformatics:スイスバイオインフォマティクス研究所)のUniProtが,2006年頃からRDFの採用を始め,2008年から定期的にRDFバージョンの配布を開始した。また,2008年には,カナダのラバル大学において,生命科学データの相互リンク情報をRDF化したBio2RDFが公開された(現在は,スタンフォード大学で開発されている)11)

2011年頃から,NBDC/DBCLSで主催している国際開発者会議BioHackathon12)において,開発内容におけるセマンティックWebの比重が大きくなってきたが13),その中でタンパク質立体構造データベースのPDBjも,RDF化を始めた14)。2013年には,DBCLSが,RDFによるゲノム情報の統合データベースとしてTogoGenome15)を公開した。2014年には,European Bioinformatics Institute(EBI)が,EBIにて開発されている主要なデータベース5つをRDF化し,EBI RDF platformという1つのポータルサイトとして公開した16)。ここには,ChEMBL17),Expression Atlas,Reachtome,BioSamples,BioModels18),それぞれのRDFバージョンが含まれている。同年には,National Center for Biotechnology Information(NCBI)から,化学物質のデータベースであるPubChemと医学用語集であるMeSHのRDFも公開された。2015年には,本稿のテーマであるRDF portal およびEBIのゲノムデータベースEnsembl19)のRDFが公開されている。このように,すでに現状でも,データベースの中でも基盤的なものについて,RDFデータとして利用できるものがそろいつつある。

4. RDF化における問題点

これまで生命科学データベースを利用する観点から,データベースをRDF化する利点を挙げた。しかし,RDF化を行うにあたっては,困難な点もある。

4.1 URIに関する問題点

2章2節では,URIがグローバルなIDとして扱うことができる利点を述べたが,一方でこのことはRDF化の難しさの一因にもなりうる。RDF化する以前から適当なURIが存在する場合は,それをそのまま利用すればいいが,そうでない場合は新規にURIを定義しなければならない。ティム・バーナーズ・リーによれば,セマンティックWebで用いるURIは,クールなURIがよいとされている20)。クールなURIとは,簡単にいえば,シンプルで,長期にわたって変更がないようにデザインされ,管理しやすいURIのことである。クールなURIを設計するための指針も提案されているが21),それにしても,そういった適切なURIを設計して維持・管理するには,一定のコストがかかる。

4.2 オントロジー利用に関する問題点

2章3節では,オントロジーを利用する利点を述べたが,一方で,すでに大量にあるオントロジーから,適切なクラスやプロパティーを選ぶことは難しい。たとえば,BioPortalで,オントロジーに対してテキスト検索を行うことはできるが,必要としているクラスが見つからないことも多い。その逆に,複数のオントロジーに,同じ概念が含まれていることも多く,どれを使うのが適当なのか判断に困ることもある。また現状において,概念クラスは多くの専門領域において比較的充実しているが,述語を記述するためのプロパティーについては適当なものを見つけるのが難しい印象がある。

4.3 RDFモデルの設計に関する問題点

たとえ利用するオントロジーを共通化したとしても,データをRDFとして表現する方法は,何通りも考えられる。しかし,同じ種類の情報を,異なるRDFモデルで表現することは,問い合わせを行う際に不便が生じる。

5. NBDC RDFポータル構築の経緯

NBDCでは,統合化推進プログラムとして,国内のさまざまなデータベース構築機関へのサポートを行っている。本プログラムに対しては,RDFによる公開が推奨されており,実際にRDFデータの構築が進められてきた。一方で,RDF化する際に,前章で述べたような問題に対する悩みが,個々の開発者から聞かれるようになってきた。また,利用者の観点からは,構築されたRDFがどこにあるのか,どのように利用すればよいのか,ということも問題になった。

開発者の悩みを減らすためには,開発者が集まって技術的な情報交換を行う場を持つことが効果的である。DBCLSでは,2012年より,セマンティックWeb技術を用いた生命科学データベース開発をテーマにしたハッカソンであるSPARQLthon22)を,毎月開催してきた。2014年度からは,統合推進化プログラムの開発者にSPARQLthonへの参加を促すことで,問題点を共有および解決する場としても活用されている。また,SPARQLthonを通じて蓄積されてきたRDF化に関するノウハウを基に,RDF化のガイドラインが構築された23)。本ガイドラインを参照しながら,RDF化を行うことで,相互に統合して利用しやすいRDFになることが期待される。加えて,各地で開発されたRDFを一括して閲覧およびデータの検索ができるWebサイトが必要ということになり,NBDC RDFポータルを開発することになった。

6. NBDC RDFポータルの紹介

NBDC RDFポータルは,2015年11月に公開された。本サービスは,国内で開発された生命科学系のRDFデータを集約するためのポータルサイトである(1)。1に,2016年4月時点で収録されているRDFデータセットを一覧にした。遺伝子オーソログ情報,タンパク質立体構造データのメタ情報,がんゲノム,糖鎖情報,遺伝子発現情報など,多様なRDFデータセットが収録されている。統合化推進プログラムの研究グループから提供されたものに加えて,それ以外の国内グループから提供されたRDFデータセットも収録されている。これらのRDFは,基本的に前述のRDF化ガイドラインに準拠しているか,事前にレビューされている。ガイドラインの重要な趣旨は,同じ種類の情報を記述する際には,共通の語彙を利用するなどして,特に問い合わせを行う際の利便性を高めることにある。たとえば,主たるリソース(データベースのエントリーを指すリソース等)には,オントロジーのクラスが明示的に指定されていること,rdfs:labelプロパティーにより,人が読むのに適したラベルが付けられていること,dcterms:identifierプロパティーによりIDのラベルが付けられていること,文献を参照する際にはdcterms:referenceプロパティーを用いPubMed IDかDOIを利用していること等が確認されている。また,データの来歴や,登録した日付,バージョン,ライセンス等のメタ情報もできるだけ付与することを推奨されている。このように,RDFポータルのデータセットは,一定の品質が維持されている点も大きな特徴である。

本ポータルサイトで提供される主なサービスは,ファイルのダウンロード,データセットのメタデータ,SPARQLエンドポイントである。現状ではRDFデータの利用者は,データベースを開発している人や,バイオインフォマティクス解析をしている人等,比較的専門性が高い人が想定されるため,データ全体をダウンロードできることは重要だと思われる。一方で,新しいデータセットに接する場合には,手元に入手する前に,その統計的な特徴を大まかに知りたいものである。そのため,データセットごとにWebページ(2)が用意されており,それぞれのページでは,RDFデータをダウンロードするためのリンクが提供され,制作者,発行日,バージョン,ライセンス等のメタ情報,外部データへのリンク数,トリプル数等の統計情報が記載されている。主要な統計情報については,すべてのデータセットについてまとめた表も提供されている(3)。統計情報から,データセットの規模感や,使われているクラスやプロパティーの数等,大まかにデータセットの特徴を把握することができる。

また,収録されているデータの構造を素早く知るために,RDFデータのスキーマ図(4)が提供されており,利用者がSPARQL問い合わせを書く際等に有用だと考えている。その下には,SPARQLクエリーのサンプルと,NBDC RDFポータルのSPARQLエンドポイントで実行するためのリンクも提供されている。手元にRDFデータをダウンロードして利用することは,データセットによっては,それなりの計算機リソースが必要であり,かつ手間のかかる作業である。SPARQLエンドポイントを利用することで,そういった作業を行うことなしにデータの検索を行うことができる。サンプルクエリーを試すには,マウスでボタンをクリックするだけで行える。また,スキーマ図を参照しながら,サンプルクエリーを変更するなどして独自の問い合わせを記述することも比較的容易にできるような設計になっている。

表1 NBDC RDFポータルに登録されたRDFデータ一覧
RDFデータセット名 登録データ内容 RDFデータセットの主たる作成機関
FAMSBASE (Full Automatic Modeling System Database) GPCR GPCR(Gタンパク質結合受容体)予測構造モデル 中央大学
GlycoEpitope 抗糖鎖抗体等 新潟大学/立命館大学
GlyTouCan 糖鎖構造・組成 創価大学
Linked ICGC (International Cancer Genome Consortium) Dataset がんゲノム 東京大学
Metadata of JCM (Japan Collection of Microorganisms) resources 微生物株特性情報 理化学研究所
MBGD (Microbial Genome Database) RDF 微生物遺伝子のオーソログ情報 基礎生物学研究所
NBDC NikkajiRDF 化合物 科学技術振興機構
wwPDB (Worldwide Protein Data Bank) /RDF タンパク質立体構造データバンク・メタデータ 大阪大学
RefEx (Reference Expression Dataset) FANTOM5 RDF 遺伝子発現情報 情報・システム研究機構
Dataset of WURCS (Web3 Unique Representation of Carbohydrate Structures) -RDF 糖鎖の記述方法 野口研究所
SSBD: Meta-information of quantitative data and microscopy images SSBDの定量データと顕微鏡画像のメタ情報 理化学研究所
BMRB/RDF NMR実験データ 大阪大学
図1 NBDC RDFポータルのトップページ
図2 NBDC RDFポータルのデータセットのWebページ例
図3 NBDC RDFポータルの全データセットに関する主要な統計情報のテーブル
図4 RDFデータのスキーマ図の例

7. 今後の展開

NBDC RDFポータルは,国内の異なる組織で開発されたさまざまな領域をカバーするRDFデータが収録されている点で,世界的にもユニークなリソースである。今後も,「データのWeb」注5)を充実させるべく,生命科学分野における幅広い領域のRDFデータを収集していく予定である。特に,外部のRDFデータへのリンク情報を充実させることで,国内外のRDFデータを統合した利用を促進していく必要があると考えている。

執筆者略歴

  • 川島 秀一(かわしま しゅういち)

京都大学大学院理学研究科博士後期課程中退。京都大学化学研究所および東京大学医科学研究所にてバイオインフォマティクスの研究やデータベース構築に従事。2012年より,ライフサイエンス統合データベースセンター 特任助教。

本文の注
注1)  最新のRDFの仕様では,Internationalized Resource Identifier(IRI)の組み合わせで情報を表現することになっている。IRIは,URIを多言語に拡張したものである(URIもURLを拡張したものである)。ただし,本稿では,現状では一般になじみのないIRIではなく,URIという記述に統一している。

注2)  uniprot:P48431は,見やすさのためQNAME形式による省略記法であるが,実際のRDFでは,<http://purl.uniprot.org/uniprot/P48431> というURIである。

注3)  turtle形式というフォーマットで記述されたRDFデータの例。uniprot:P48431は,core:Protein(http://purl.uniprot.org/core/Proteinの省略記法)というオントロジークラスのインスタンスである,ということを意味している。

注4)  SPARQLは,RDFデータに問い合わせを行うための言語である。

注5)  これまでのWebは主に「人が読むための文書のWeb」であった。Linked Open Dataでは,RDFなどの標準化されたフォーマットを用いて,構造化されたデータを相互にリンクした(それゆえ機械処理が可能な)「データのWeb」の構築を目指している。

参考文献
 
© 2016 Japan Science and Technology Agency
feedback
Top