情報管理
Online ISSN : 1347-1597
Print ISSN : 0021-7298
集会報告
集会報告 BioHackathon 2017報告
片山 俊明
著者情報
ジャーナル フリー HTML

60 巻 (2017) 10 号 p. 744-747

詳細
PDFをダウンロード (6969K) 発行機関連絡先

開催情報

  • 日程   シンポジウム:2017年9月9日(土)~10日(日) ハッカソン:2017年9月11日(月)~16日(土)
  • 場所   シンポジウム:科学技術振興機構(JST) 東京本部サイエンスプラザB1会議室(東京都千代田区)

    ハッカソン:盛岡つなぎ温泉 ホテル大観(岩手県盛岡市)

  • 主催   科学技術振興機構 バイオサイエンスデータベースセンター(NBDC),情報・システム研究機構 データサイエンス共同利用基盤施設 ライフサイエンス統合データベースセンター(DBCLS)
  • 協力   岩手医科大学 いわて東北メディカル・メガバンク機構,盛岡観光コンベンション協会

1. はじめに

NBDC/DBCLS BioHackathon(バイオハッカソン)注1)は,2008年にライフサイエンス統合データベースセンター(DBCLS)が始めた国際会議で,当センターのミッションである生命科学の多様なデータベースを統合的に利用するための技術開発とその国際標準化・相互運用性・アプリケーション開発などを主な目的として開催してきた。2011年からは科学技術振興機構(JST)のバイオサイエンスデータベースセンター(NBDC)と共同で主催するようになり,今回で記念すべき10回目を迎えた(1)。

ハッカソンはもともとITのコミュニティーにおいて2000年前後から広まってきた会議形式で,日頃はインターネット越しに協力しあっているソフトウェア開発者が数日間にわたり1か所に集まって合宿し,プログラム開発(ハック)を集中的にマラソンのように行うことで,会期中にさまざまな課題を解決するイベントである。このバイオインフォマティクス(生命情報科学)版がBioHackathonで,Open Bioinformatics Foundationが各プログラミング言語における生命科学データベースへのアクセス方法を標準化するために2002年に開催したものが最初と考えられる。

NBDC/DBCLS BioHackathonは例年初日にシンポジウムを設け,最新の国際動向と現状の課題についての情報共有を行うが,研究発表の講演だけを行ういわゆる学会とは異なり,続くハッカソン期間中は任意のグループに分かれて課題ごとに議論やソフトウェア開発に取り組む実践的な会議となっている。今回は10年分の総括と今後の方針を検討するため,2017年9月9~10日にJST東京本部で2日間にわたる拡大シンポジウムを開催し,その後9月11~15日は岩手医科大学の協力で盛岡市の繋(つなぎ)温泉に会場を移し5日間のハッカソンを行い,最終日の9月16日には論文化のための取りまとめ作業を行った。本稿ではこれまでの取り組みと今回のBioHackathonについて概要を報告する。

図1 NBDCセンター長 高木利久教授による開会あいさつ

2. BioHackathonの10年

生命科学のデータベースは扱う生物種や分子種などの対象によって,ゲノム情報,遺伝子やタンパク質の配列と機能アノテーション,発現や修飾などの各種オミックス情報,分子の立体構造や相互作用,生体内パスウェイと表現型,変異と疾患,環境や培養条件など多岐にわたり,その数は数千を超える。主要なデータについては巨大な国際リポジトリに集約されているものもあるが,研究の現場ではこれらのデータベースを横断的に活用する必要がある。

BioHackathonでは,国内外のデータベースを統合的に利用するための技術開発を目的としているが,多様なデータを1か所に集約するsilo(サイロ)型の統合は,その膨大なデータ量や多様性から,新しいデータベースの収録や日々の更新が追い付かないなど現実には困難であるため,当初はWebサービスによる国際標準化と相互運用性の向上が検討されてきた。さまざまなデータベースへの問い合わせや解析サービスの実行を,SOAPやREST(Representational state transfer)などのAPIを整備することで分散的にアクセスできるようにし,仮想的な統合利用を可能にする考え方である。

しかし,データベース提供者によるWebサービスの整備はなかなか進まないうえ,それぞれ独自に定義されたAPIではできることが限られるほか,各APIから得られるデータが非統一なため組み合わせて利用するには手間がかかるなど,多くの課題が残されていた。このような,お仕着せのAPIでは機能が足りない,データそのものを横断的に活用したいといったニーズに応えるため,2010年頃からセマンティックWebによってデータベースそのものを統合可能なデータに再編成することになった1)

BioHackathonにおけるオントロジーの共通化やRDFデータの開発により,日米欧でさまざまな生命科学・医科学のデータベースが同じ方法で利用できるようになってきた。これを基に,ここ数年でFAIR principlesとよばれるFindable,Accessible,Interoperable,and Reusableの4原則に基づいたデータ公開の原則が提言され2),さまざまな機関でデータベース開発における標準として認識されつつある。FAIRは突き詰めるとLinked Open Data(LOD)をきちんと作ることであり,現状ではセマンティックWebでの実装が最も整備状況のよいFAIRデータといえる。その成果は,欧州ではEBIやSIBを中心としたRDF Platformに,米国ではNCBIのサービスに,国内ではNBDCの運用するRDF Portalにまとめられ,これらを利用するアプリケーションの開発も進んでいる。

この10年間のBioHackathonの成果としては上記のような国際標準化の基盤となったことが大きいが,実際的には生命科学・医科学の各ドメインにおける個別のデータ開発,ソフトウェア開発,新しい方法論の開発などの地道なインフラ整備が複合的に進んできたことが重要である。これには,実務的にデータベース開発や解析にあたる現場の研究者を集め,1週間ともに生活することで国際的な人的ネットワークと信頼関係を構築し,さまざまな課題について議論しながら最先端の技術を用いてその場で一緒に解決に取り組むという,ハッカソンならではの会議形式が貢献している。また,当初想定していなかったような新しいコラボレーションが自発的に生まれるなど,イノベーションを生み出す舞台装置としても効果的に機能してきたといえる。

3. BioHackathon 2017

BioHackathonの参加者は,国内外から生命科学・医科学の主要なデータベースプロバイダ関係者およびデータベース統合技術の研究者やソフトウェア開発者といった,先端技術を用いてシステムやプログラム開発を行っている現場の研究開発者が中心で,今回は海外から32名,国内から77名の参加があった(23)。海外からの参加者は,オーガナイザーの選考による専門性の高い招聘(しょうへい)研究者15名の他に,ハッカソンで取り組みたい内容を公募し,オーガナイザーによる査読結果を基に全額もしくは一部主催者負担で招待された12名,自費参加者5名となっている。本来は自費参加者がもっと増えるとよいが,若手研究者にとって海外から1週間にわたって遠い日本まで自己負担で来るのはなかなか難しいようだ。公募は2016年から始めたが,新しい参加者の開拓につながっているとともに,新しい研究テーマやよいアイデアがもち込まれることも多く有用である。

2017年のハッカソンでは,前述のFAIR principles適応度の評価指標の開発や,オミックスデータ・ゲノムのメチル化・バイオサンプル・電顕画像などさまざまなデータのRDF化,オーソログから環境までさまざまなオントロジーの整備,JSON-LDを活用したRDFデータやsmartAPIの開発,ヒトゲノム変異データの通知サービスや症例報告に基づく検索サービスのMME(Matchmaker Exchange)への統合,分散大規模データベースへの解析アルゴリズムの分散適用などが期待されているワークフロー記述言語CWL(Common Workflow Language)に関連する開発,Blockchainの生命科学における活用案,RDFデータの機械学習や人工知能アルゴリズムによる解析手法の開発などが行われ,今後の発展が期待される内容となった(4)。

図2 BioHackathon award受賞講演を行うスイスバイオインフォマティクス研究所のJerven Bolleman氏
図3 BioHackathon 2017 ハッカソン会場の様子
図4 BioHackathon 2017 集合写真

4. これからのBioHackathon

BioHackathonの参加人数は,初回2008年の68名から今回の2017年の109名まで増加傾向にあり,この間にユニーク参加者数で371名,延べ人数で20か国・地域から800名を超える参加があった。国際的な人的交流の場となっている一方で,1週間の時間があっても全員が何を行っているか把握するのは困難な規模になりつつある。予算の逼迫(ひっぱく)もあり海外からの招聘などに使える費用は減少傾向にあるため,今後はフォーカスを絞ったハッカソンの運営を行うか,複数のテーマに分けて開催するなどの工夫が必要となるかもしれない。

セマンティックWeb化によって,生命科学・医科学のデータベースはようやく容易に統一的に扱えるデータ科学のためのインフラとなってきた。今後の方向性としてはこれらのデータを横断的に活用した,機械学習や人工知能のアルゴリズムの適用による新しいデータ解析が芽生え始めている。また,医科学データの国際的な利活用においてはGlobal Alliance for Genomics and Health(GA4GH)やELIXIR Europeとの連携,国内的には日本医療研究開発機構(Japan Agency for Medical Research and Development: AMED)との連携が考えられ,BioHackathonで開発されてきた技術の公共データベースを生かした医科学への応用が期待される。

ハッカソンという会議形式の有用性は参加者には高く評価されているにもかかわらず,その成果が言葉では説明しにくいため伝わりにくい面があるのも確かである。しかし,講演ビデオやストリーミングのあふれるインターネットの発達した現在において,face-to-faceのミーティングを行うメリットは,専門分野や時差の壁を越えてじっくり議論するための時間や,人的交流の機会を確保することにこそある。そのため,旧来の研究発表や情報収集を中心とした国際学会ではなく,ハッカソンのような会議を増やしていく方が,共同研究・国際連携の発展により寄与するのではないだろうか。データベース統合は,これまでなかったものを,これからの技術で,きちんと合意を取りつつ世界規模で進めていく地道な取り組みである。これからも,データ科学の推進を加速するインフラ整備を続けるとともに,トータルでのコスト削減を図っていきたいと考えている。

最後に,DBCLSでは国内での技術交流を促進するため国内版のバイオハッカソンも8年にわたって開催してきているほか,セマンティックWeb技術の実践的な利用とアプリケーション開発を推進するためのミーティングSPARQLthon(スパークルソン)も5年間にわたり毎月開催してきた。これらについても,今後より効率のよいデータ統合と利活用を進めていくため,国内の生命医科学データに携わる研究者・技術者の産学を越えた積極的な参加を期待したい。なお,本稿では触れなかったが,10年間の経験によるハッカソン運営のノウハウについてはWebで公開しているので参考になれば幸いである注2)

(情報・システム研究機構データサイエンス共同利用基盤施設ライフサイエンス統合データベースセンター 片山俊明)

本文の注
注1)  BioHackathon:http://2017.biohackathon.org/

注2)  国際開発者会議BioHackathonの10年:http://doi.org/10.18908/togo2017.p005

参考文献
 
© 2018 Japan Science and Technology Agency
feedback
Top