情報管理
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
集会報告
BioHackathon 2012報告
片山 俊明山口 敦子
著者情報
ジャーナル フリー HTML

2012 年 55 巻 8 号 p. 606-610

詳細

  • 日程 2012年9月2日(日)~7日(金)
  • 場所 富山国際会議場インテック大山研修センター
  • 主催 独立行政法人科学技術振興機構バイオサイエンスデータベースセンター,大学共同利用機関法人情報・システム研究機構ライフサイエンス統合データベースセンター

はじめに

会場内を見わたすと,それぞれ思い思いの場所で仲間と机を囲み,時には床に寝転がって,黙々とキーボードに向かう人々。世界中から集められた選りすぐりの開発者たちだ。セマンティックWebという比較的新しい情報技術を生命科学のデータベース統合に応用し,これまでにない新しいサービスやソフトウェアを創りだそうという熱気にあふれている(図1)。

図1 BioHackathon 2012会場の様子

今回5回目の開催を迎えたBioHackathon(バイオハッカソン)は,2008年より大学共同利用機関法人情報・システム研究機構ライフサイエンス統合データベースセンター(DBCLS)が1),2),2010年より独立行政法人科学技術振興機構バイオサイエンスデータベースセンター(NBDC)とDBCLSが主催してきた国際開発者会議である。今年,本誌2012年6月号で報告されたBiocuration3)が生命科学のデータキュレーションに関わる実務者会議とすれば,BioHackathonは生命科学のデータ解析やデータベース構築に関わる実務者のための会議といえる。BioHackathonは,よくある国際会議とはかなり趣が異なり,講演とポスター発表のような話を聞くだけの時間はほとんどない。テーマに沿って選ばれた参加者から自発的に現在直面している課題がリストアップされ,約1週間の合宿形式で課題解決のための議論とソフトウェア開発が繰り広げられるのだ。この試みは功を奏し,短期間で生産性の高い議論と開発が行われる会議として認知されている。国内の参加者にとっても,海外の研究開発者と1週間毎日ディスカッションできる環境は他では得難いものとなっている。今回は,筆者らが主催者として参加したBioHackathon 2012について,その趣旨と成果をかいつまんで報告したい。

セマンティックWebによる情報統合

さて,ここ数年のBioHackathonのテーマはセマンティックWebである。生命科学のデータは量・種類ともに膨大で,その統合的な利用が課題となっているが,セマンティックWeb技術はそれを解決する技術として有望視されている。すべてのデータをトリプルと呼ばれる「主語・述語・目的語」の同一形式に分解し,共通のIDとしてWebでよく使われるURLを利用する。それによってさまざまな組織から生み出されるデータを容易に結合できるようになる。さらに,データの意味付けに使われる用語をオントロジーとして整備することにより,共通語彙の利用とその階層的な意味が明確になり,将来的には推論などの機械処理によって新しい価値を生み出していくインフラとなることが期待されている4)

NBDC / DBCLSではセマンティックWebで利用されるResource Description Framework(RDF)形式によるデータ統合を推進している。そのため,今回のBioHackathon参加者は,必然的にセマンティックWeb技術に詳しく,生命科学への応用を目指している研究者・技術者を中心に世界中の国々から選ばれることとなった(表1)。国内参加者を合わせた総計参加人数は78人であった(図2)。

図2 集合写真
表1 BioHackathon 2012参加者の国別内訳(現在の勤務先を元に集計)

シンポジウムと開発会議のプログラム

BioHackathon初日は,例年通り一般参加者向けと相互理解促進のためのシンポジウムが富山国際会議場で開催された。この模様はUstreamでも配信された。講演のトピックは,統合的なセマンティックWebによる知識発見から,分散SPARQLクエリによる複数リソースのクラウド的な融合,自然言語処理による知識抽出,糖鎖バイオロジーにおける取り組み,環境オントロジー構築とアノテーションへの利用など多岐にわたり,これからの方向性を示唆するものだった。

BioHackathon2日目からの5日間がメインの開発会議であり,インテック大山研修センターを会場として開催された。まずはグループディスカッションにより,この1週間で取り組む課題の洗い出しを行った。どのグループに参加するかは自由であり,新しいグループを作ったり,他のグループに移ったりしながら,各自で開発計画を立てる。残りの日程の活動は自発的・創発的に行われ,必要な人と必要なタイミングでディスカッションを重ねながら,データ構築やソフトウェア開発が着々と進んだ。共同作業の相手が国や時差を超えて目の前に一緒にいること,それが1週間続くことの価値は非常に高く,数週間かかりそうな議論や開発が1日で終わることも珍しくないのがBioHackathonの楽しいところである。最終的に表2のような多種多様なグループが形成され,最終日に報告会をして解散となった。

表2 BioHackathon 2012で開発が進められたテーマ一覧

今回のBioHackathonによる成果

今回のBioHackathonでは,セマンティックWebのデータモデルであるRDFや標準検索言語のSPARQL Protocol and RDF Query Language(SPARQL)については参加者の間ですでに理解が浸透しており,生命科学のより幅広い分野において,適切なオントロジーを利用してメタデータづけされたRDFデータの生成や既存データからの変換が進められた。生成されたデータを統合的に利用するために必要な標準化の試みとして,ゲノムアノテーションにおける位置情報の共通オントロジーFeature Annotation Location Description Ontology(FALDO)整備や,糖鎖構造の標準RDFフォーマットと糖鎖オントロジーの仕様策定,EnvOとMicrobedb.jpによるメタゲノムの試料採取場所を記述する環境オントロジー整備などが行われた。また,BioPortalとBio2RDFによるオントロジーマッピングと可視化,Semanticscience Integrated Ontology(SIO)オントロジーのリファクタリング,Schema.orgによる検索結果向上のためのメタデータ整備なども進められ,実用的なアプリケーションが生まれてくる素地が整いつつあるようだ。

ゲノム情報の統合化では,日本DNAデータバンク (DDBJ) / DBCLSとBioRubyのグループによるInternational Nucleotide Sequence Database Collaboration(INSDC),Generic Feature Format version 3(GFF3),Cufflinksなど独自ファイル形式からのRDFコンバータ開発,BioInterchangeとbio-tableによるRDF生成フレームワークの開発,JBrowseによるSPARQLエンドポイントを利用したゲノム情報の可視化など,既存データのRDF化とそれを利用するアプリケーションの開発が行われた。関連してアノテーション情報のRDFによる集積を促進するため,H-InvDBによるトランスクリプトームデータのRDF化,Microbial Genome Database(MBGD)によるオーソログデータのRDF化,Gene Trek in Prokaryote Space(GTPS)による遺伝子情報のRDF化,TogoAnnotation,CyanoBaseなどによる文献アノテーション情報のRDF化,UniProtによるタンパクドメインのRDF化,COXPRESdbによる共発現遺伝子データのRDF化,LSDプロジェクトによる辞書データのRDF化などが進められた。

より高度な解析に足る知識ベースを構築するためには,文献データからのテキスト抽出とテキストマイニングの技術開発が必要とされており,PDFファイルからの構造テキスト抽出や,テキストマイニング結果のRDF化などによって,より広いドメインでの標準データ整備が進められた。さらにRDFデータやSPARQLエンドポイントを活用するためのツールやWebのサービス開発として,自然言語による問い合わせからのSPARQL生成,Yummy DataによるSPARQLエンドポイントのクオリティ評価などの試みも始まったが,これらを支える技術開発は今後も継続的に行っていく必要があるといえる。一方で,データを格納するトリプルストアには性能やSPARQLバージョン1.1対応などでまだ課題が残っていることが,Hadoopなどクラスタ上で動くRDFデータベースの実証実験やSPARQLによる分散検索の性能評価によって明らかになってきた。

おわりに

多様な背景の開発者がそれぞれの問題を持ち寄って,共通のゴールを設定し解決策を考えてその場で実装する,というBioHackathonの精神は今回も高い生産性につながっていた。実のところ,BioHackathonで最も重要な側面の1つは人的資源の交流と相互理解である。これを促進するために,オーガナイザー側ではいくつかの仕掛けを用意していた。まずはシンポジウムのあと「おわら風の盆」という祭りを見学した。日本の伝統的な文化に触れることで国際交流につながったと思う。また会期中2回ほど夕食をバーベキューにしたことで他グループのメンバーとも自由闊達な議論が進んだ。さらに連日の開発疲れを癒すため,希望の2グループに分かれて立山と五箇山へ遠足に出かけた。立山の清々しい自然と温泉,世界遺産である五箇山の穏やかな景色,それぞれリフレッシュになったようだ。また,夜には各国の参加者に持ち寄っていただいた世界の銘酒を飲みながら,談話室で遅くまで議論するLiquorthon(リカーソン)が毎年恒例となりつつあり好評を博している。

なお,BioHackathonへの参加は招待制となっている。これは第1回のオープンバイオのBioHackathonの頃からの文化である。1つの理由は最先端の開発者を同時期に1週間ある場所に参集させるためにはインセンティブが必要だからであろう。予算削減により,2010年からは国内参加者は自費参加となったため,国内の技術振興という側面からも国内からは自由な参加を受け付けるようになっている。NBDC / DBCLSでは今後もBioHackathonを継続していく予定なので,本稿を読んで興味を持たれた読者は次回ぜひ参加を検討していただきたい。開催予定はBioHackathonのWebサイト(http://biohackathon.org/)に掲載されるほか,サイトからリンクされているメーリングリストなどで告知する予定である。

飛行機のストや遅延・天候の影響による参加者の予定変更など,当日の朝まで気の抜けない状況の中,会場設営,ネットワーク敷設・障害対応,会計やエクスカージョンの手配,開発者が絶え間なく必要とするコーヒーや物品の買い出しと補充などなど,オーガナイザーと事務方の皆さんの献身的な努力によって,今回のBioHackathonも成功裏に終わった。毎回,参加者のみなさんから大きな感謝をいただけているのは,裏方を支える日本的なホスピタリティの賜物である。BioHackathonの主催には,多様な参加者の要求に対応する高度なフレキシビリティが求められることから,これを他のチームで代替することは難しいと思われる。関係各位のご協力に心から感謝しつつ,これを開催報告とさせていただく。

(大学共同利用機関法人情報・システム研究機構ライフサイエンス統合データベースセンター 片山俊明,山口敦子)

参考文献
 
© 2012 Japan Science and Technology Agency
feedback
Top