2014 Volume 57 Issue 3 Pages 208-212
研究データ同盟(Research Data Alliance: RDA)は“Research Data Sharing without Barriers”(障壁なきデータの共有)をスローガンに研究データの共有を目指すグローバルなコンソーシアムである。研究データと一言で言っても,それは極めて多様・多量であり,あるべきデータ共有の姿は研究分野によって異なる。よって,官僚的・画一的に政府機関などがその方法を決めても成功しない。そのような考えのもとに,研究コミュニティー自らがその分野にもっとも適したデータ共有を推進するためのプラットフォームがRDAである。Andrew Treloa氏(Co-Chair RDA Technical Advisory Board, Director of Technology, Australian National Data Service)は総会に先立って,新しい参加者を対象に開催されたガイダンスのセッションにおいて,RDAは研究コミュニティーがその活動を牽引(けんいん)する非常にユニークな組織であり,活動を支えるのは研究者が主体的に運営するWorking GroupやInterest Group等の分科会の取り組みであることを強調して説明していた。またデータ共有の世界は多様かつ複雑な問題が山積しているため,これまでの参加者も常に初心を大切にし,見落としている観点がないか注意を払っており,初めて参加するにあたっても積極的に新しい観点から意見を述べてほしいと,RDAの活動が拡大することを歓迎した(図1)。
RDAの設立の経緯については『情報管理』56巻第10号(2014年1月)に掲載された集会報告「研究データ同盟(Research Data Alliance)第2回総会」1)に詳しくまとめられているため割愛するが,第1回総会が2013年3月にスウェーデン(ヨーテボリ),第2回総会が2013年9月に米国(ワシントンD.C.)にて開催された。そして今回第3回総会が2014年3月26日から28日にかけてアイルランド(ダブリン)で開催され,世界各国から461名が参加した。第1回総会,第2回総会の参加者がそれぞれ250名,368名だったことを考えると,RDAの活動は着実に拡大しており,また研究データの共有という課題への関心が世界的に高まっていることがうかがえる。
RDA総会は全体会と分科会で構成される。分科会はその議論の成熟度によって,Working Groups(WG),Interest Groups(IG),Birds of a Feather(BoF)に分類されている。BoFはもっともゆるい集まりであり,検討が進むとIGやWGに格上げされる。今回は合計で35の分科会が開催された。また,議論すべき課題について柔軟に検討が進められるように,全体会において,参加者からWGやIGの設立候補になるトピックスに関する提案を求めるセッションがあり,即興で「能動的データマネージメントプラン」等6つのディスカッショングループが作られた。今回の議論を基に今後必要に応じてIGやWGが形成されることになる。
アイルランド国務大臣のJohn Perry TD氏(Minister of State, with responsibility for Small Business at the Department of Enterprise, Jobs and Innovation)の開会挨拶により総会が始まった。大臣からは,研究データの活用や分析は産業界にも貢献することからアイルランドの科学技術政策の重点分野の1つであり,また国際連携が重要であるので,アイルランドがRDAのホスト国となれて喜ばしいとの発言があった。それに続いて,Mark W.J. Ferguson氏(Director Genera of Science Foundation Ireland & Chief Scientific Adviser to the Government of Ireland),Ian Chubb AC氏(Australia's Chief Scientist)からも具体的な事例に基づきデータ共有の重要性とそのための国際連携の必要性が提言された。
パネル討論においては,「データポリシーの課題」をテーマにアイルランド,米国,EU,オーストラリアの代表がそれぞれの立場から状況を説明し,会場の参加者も交えて議論が行われた。その中で,Carlos Morais-Pires氏(DG Connect, EC)からは「研究データの共有は極めて多様であることから,研究コミュニティーが自ら検討を重ね,徐々に最適な方法に落ち着いていくという“エコシステム”のアプローチにより実現されるべきである」との発言があった。また,質疑応答においては,長期的な研究データの保存にかかるコストを誰が負担すべきか,という議論がなされ,こちらについても,原則は研究実施機関が負担すべきであるが,研究データの性質によっては必ずしもそうではなく,単一のアプローチでは解決できないことから,エコシステムにおいて最適化されるべきではないか,という結論に達した。
2日目(3月27日)の全体会においては基調講演として,Tony Hey氏(Vice President of Microsoft Research Connections)より,米・英のオープンアクセス・オープンデータに関する取り組みの概要の説明があり,Microsoft Researchの取り組みとして,ケンブリッジ大学との共同研究や“The Fourth Paradigm - Microsoft Research”「(第4パラダイム:データ集約型の科学的発見)」-マイクロソフトリサーチ)が紹介された。またマイクロソフトで開発を進めている参照したデータベースやメタデータをリンクできるような新しい電子論文のフォーマットが紹介された(図2,図3)。
3日目(3月28日)の閉会セッションにおいては,次回第4回総会について,9月22日~24日に“Data Flood”(データの洪水)をテーマにアムステルダムで開催されることが発表された。次回の総会はRDA発足から1年半が経過した時点で行われることから,WGの成果の発表を予定しているとのことである。
総会運営事務局が割り当てた部屋には入りきらないほどの人が集まり,急遽(きゅうきょ)場所を変えて開催となった。こういうことも,参加者の自発性に基づいて運営されているとありがちなことである。
集まった約40名の大半は,大学付属の図書館でデータ・リポジトリを運営して,データ分析が主眼となる研究をサポートしている人たちである(図4)。バックグラウンドとしては,図書館情報学を修めた人たちとみて間違いない。
ミーティングは,それぞれの職場での事例,工夫,悩みを持ち寄るという形で進んだ。内容にはかなりバラつきがあった。データ・リポジトリを運営するIT技術者との役割分担などで苦労しているのではないか,と予想していたが,これは的外れ。研究データの多様性にどう対応するか。これが一番苦労している点であった。文献であれば,書誌情報の付与や管理の仕方が確立しているが,研究データについては,このようなものは整備されていない。研究者からデータを預かっても,どのようなドキュメントを付けておけば再利用可能となるのかが判断できない,といったあたりに悩んでいることが報告の主流であった。
こういう悩みの対極には,職員用に「促成コース」として開発した教材を使って,学部学生あるいは修士課程の大学院生に8週間のコースを提供したところ,大好評という事例があった。これは,企業がデータ分析を業務の一環として立ち上げる際に,最初に必要となる最低限の知識を得るのに適している教材でもあることが,人気の秘密なのだそうである。研究データをめぐる価値連鎖は,意外な形でつながっていることに驚いた。
IG:RDA/CODATA Materials Data, Infrastructure & Interoperability(物材研究のためのデータ,基盤と相互運用可能性)材料分野におけるグローバルなイノベーションを推進するために,リポジトリ間の連携やデータマネジメント,交換,分析のためのデータ公開方法の標準化等の課題を解決する目的で結成され,今回が初めての議論の場となった。CODATA(Committee on Data for Science and Technology)や他のRDAのWGやIGと積極的に連携し,効果的な議論を目指すものである。James Warren氏(National Institute of Standards and Technology: NIST, USA)とLaura Bartolo氏(Kent State University, USA)が共同議長を務めている。はじめにEUや米国のデータ共有のためのプラットフォームの事例紹介が行われた。Warren氏からは「NISTでは約2年前からさまざまな機関と連携し,リポジトリの設置,データマイニングの技術開発,研究データの標準化などについて重点的に取り組んできた。今後,Dspaceを材料の研究コミュニティーのためにカスタマイズし,活用することを検討しており,DOI(Digital Object Identifier)の付与も積極的に展開していきたい」との発言があった。また,Bill Regli氏(Drexel University)からはNSFの支援を受けて実施されている“DataNet Federation Consortium”の紹介があった。このプロジェクトは既存のデータセットをハブを通じて共有することを目指すものである。そして,ほかのWGやIGとの連携のあり方についてはメタデータを議論するWGやIGとの連携の必要性が指摘され,今後推進することとなった。また,他の機関へのアウトリーチとしては,ISOや国の研究機関(たとえば,日本の産業技術研究所)等,特に標準化に取り組んでいる機関との連携を目指すこととなった。リポジトリ間の連携についてはまだまだハードルが高く,すぐに具体的な議論を始めることが難しいと確認された。今後,James Warren氏(NIST)を中心に方針をまとめたうえで対応していくこととなったが,やはり材料分野におけるデータは極めて多様であり,簡単には実現できないことを目の当たりにする結果となった。
欧米諸国の関心事項・共通課題はインフラ整備から,インフラの活用に徐々に移行している。リポジトリをいかに充実,連携させるかということが議論されており,メタデータの取り扱いについては特に関心が高い。また,データの保存に関して,誰がコストを負担して,誰が行うのか,という議論が始まっている。さらにデータを取り扱う人材の教育についての関心も高まっている。このように,技術的な議論だけではなく,人材,資金,さらには法制度まで含んで幅広い課題がとりあげられるようになってきており,研究の制度基盤を創る運動になってきている。
RDAの創立メンバーの1人でもあり,インターネットの創成期にも活躍した米国のFrancine Berman教授(Rensselaer Polytechnic Institute)は,「インターネットの場合も,Internet Engineering Task Force(IETF)が安定的に活動できるようになるまで5年かかった。RDAが発足後わずか1年でここまでの広がりをもつようになったのは,望外のペースだ」と語っていた。Berman教授の頭の中には,インターネットがもたらした爆発的な変化と同じ規模の変化がRDAから生まれる絵が描かれているようだ。
材料の分科会(IG)においては,リポジトリやその運用システムが整いつつあることは示されていたが,どれほどのデータが格納されているか,また活用例については触れられていなかった。次のステージの課題として,リポジトリ間の連携や内容の充実について議論が開始されたが,有効な結論が得られないまま,散会となった。今後,電子メールによるコミュニケーションも活用して,今回の出席者でさらに検討を進めることとなったが,やはり材料分野のデータ共有は極めて難しいことを改めて共有する結果となった。
そして,RDAの基本的な考え方は,研究データは極めて多様であり,その適切な共有方針や方法は政府等による画一的なトップダウンのアプローチでは実現できず,各研究コミュニティーが適切な方法を検討し,実施するべきであり,それによりエコシステムのようにさまざまなアプローチが相互作用して最適化されるべきである,というものである。しかしながら,議論に参加している研究者は欧米からの出席者が中心で,日本を含めアジアからのインプットが少ないことが,懸念される。RDAは研究データ共有の方法を「事実上標準化」する取り組みであることから,基本的なルールを決める段階から日本の研究者が寄与しなければ,結局は欧米が主導で決定したルールに従うことになり,アジアの研究者にとって不利益となる危険は十分にある。特に,米国と英国の科学技術政策は,今後の学術成果の公表は,論文だけではなくその根拠となるデータの同時開示を志向していることを考慮すると,研究データ公開の方式が異なる論文は,そもそも論文として認められない,といった状況すら想定できる。今後,日本の研究コミュニティーにおいて研究データの共有の機運を醸成し,RDAのようなグローバルなプラットフォームに積極的に参加することが必要であろう。
((独)科学技術振興機構 恒松直幸,浅野佳那)