情報管理
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
レポート紹介
レポート紹介 『地球環境研究におけるオープンデータ:ベルモント・フォーラムによるオープンデータ調査』
近藤 康久
著者情報
ジャーナル フリー HTML

2016 年 59 巻 4 号 p. 250-258

詳細

[レポートについて]

今回紹介するのは,ベルモント・フォーラム(Belmont Forum)が2014年に実施した地球環境研究のオープンデータに関する国際アンケート調査のレポートであり,2016年1月にオープンアクセス学術誌『PLOS ONE』に採録されたものである。ベルモント・フォーラムは,地球の環境変動研究への支援を行う世界各国・地域の研究助成機関(funding agency)および国際科学組織の共同体であり,国際共同研究における研究者の結集と研究資金を支援することを通じて,地球環境問題の解決や持続可能な人類社会の実現に資する研究を加速・深化させることを目的としている1)2)。2016年4月現在,オーストラリア,オーストリア,ブラジル,中国,台湾,欧州委員会,フランス,ドイツ,インド,イタリア,日本,オランダ,ノルウェー,カタール,南アフリカ,スウェーデン,英国,米国の研究助成機関が構成員となっており,日本からは文部科学省と科学技術振興機構が参加している。ベルモント・フォーラムでは,3か国・地域以上の共同提案に基づく共同研究活動(Collaborative Research Action: CRA)を公募しており,採択した研究課題の資金を,その課題を分担する国・地域の研究助成機関が支援する仕組みを取っている1)2)。今回取り上げるアンケート調査は,2013年に採択されたCRA「e-インフラとデータ管理(e-Infrastructure and Data Management)」の作業部会によって実施された。以下にレポートのあらましを記す。

1. はじめに

CRA「e-インフラとデータ管理」の任務は,地球環境研究を支援するための戦略と実行計画を策定し,ベルモント・フォーラムが取りうるアクションの選択肢を提示することである。今回のアンケート調査は,地球環境研究を構成する諸分野の科学コミュニティーや,研究者以外で問題に関心を持つ人々,および政府職員その他のオープンデータの提供・利用を検討している人々から,以下に掲げる3点に焦点を絞りつつ,データの公開・アクセス・(再)利用に関する考えと経験を聞き取ることを目的として実施された。

  • •   地球環境変動を取り扱うさまざまなコミュニティーにおいて鍵となるオープンデータの取り組み(ベストプラクティス)
  • •   今後データ共有を進めるべき分野
  • •   「オープンデータ共有」の障壁

2. 方法

2014年9月16日から同年11月12日にかけてインターネットでアンケート調査を行い,1,330件の回答を得た。環境科学,地球科学,海洋・極域科学,生物多様性,社会・経済学分野の研究者,データサイエンティスト,データ管理者,技術員を対象とする約20のメーリングリストに調査への協力および周知依頼を送信した。また,オープンアクセス出版に力を入れているコペルニクス社からこれまでに出版した全著者(約2万9,000人)に協力を依頼し,750件以上の回答を得た。

設問は19あり,すべて任意回答とした。職業を回答した1,253件の個票を分析対象とし,統計ツールR(特にLikertパッケージ3))を用いて分析した。

3. 結果

3.1 回答者の属性

回答は80か国・地域から寄せられ,うち17か国・地域から20件以上の回答を得た(1)。年齢を回答した1,247人の平均年齢は43歳であり,41~45歳が年齢層の中央値であった。回答者(1,253人)の70.1%(878人)が研究ポストに就いており,17.9%(224人)が政府機関,5.6%(70人)が非営利組織,2.6%(32人)が営利組織,0.3%(4人)がメディアに所属していた。職業上のデータとのかかわり方を尋ねたところ(複数回答可,回答数1,248件),82.3%(1,025人)がデータ利用者,25.3%(315人)がデータ管理者と回答し,5.3%(66人)が複数の役割を有していた。専門分野(複数回答可,回答数1,232件)では,地球・環境科学(68.7%,846人)と気候・大気科学(31.3%,386人)が多数を占め,他に生物科学(20.9%,258人),物理科学(13.1%,162人),工学(7.1%,88人),計算機科学(6.9%,85人),社会科学(5.4%,66人),農学・獣医学(4.3%,53人),化学(4.1%,50人)から50件以上の回答を得た。ただし,気候・大気科学と物理科学では86人が重複している。

表1 アンケート回答数上位の国・地域(原典:Table 1; http://doi.org/10.1371/journal.pone.0146695.t001)

3.2 オープンデータに対する認識

今回のアンケート調査では,「オープンデータ」の定義を限定せず,「オープンデータのどのような側面が最も重要とお考えですか」という質問で,回答者の認識を確かめた(1)。その結果,「品質情報の明示」「メタデータの明示」「アクセスの容易さ,再利用・再配布が可能」が最も重要と認識されていることが明らかになった。「アクセス制限が可能」が最下位だったが,それでも約4割の回答者がとても重要と回答したのは特筆に値する(「まあまあ重要である」も含めると約8割の回答者がアクセス制限を重要とみなしている)。

図1 オープンデータの諸側面に対する認識(原典:Fig. 2; http://doi.org/10.1371/journal.pone.0146695.g002)

3.3 アクセスとライセンスの条件

オープンデータに付与するのに適したライセンスを,パブリック・ドメイン(クリエイティブ・コモンズのCC0),表示(CC-BY),表示-継承(CC-BY-SA),表示-非営利(CC-BY-NC),表示-改変禁止(CC-BY-ND),オープン・ガバメント・ライセンスに区分して,回答者に可用性を評価してもらったところ,予想どおり,過半数がパブリック・ドメイン(CC0)とCC-BYを「とても有用である」と回答した(2)。反対に,これも予想どおり,CC-BY-NDは最も有用性が低いという回答結果を得た。その他のライセンス形態については,回答者が意味を正しく理解して回答したかどうか疑問が残る。

図2 ライセンス形態別にみるオープンデータの有用性(原典:Fig. 3; http://doi.org/10.1371/journal.pone.0146695.g003)

3.4 オープンデータのガイドライン

「オープンデータのガイドラインを1つでも知っていますか」という設問に対して「はい」と答えたのは,わずか23%(216人)にすぎなかった。参照先として上がったのは,ライセンス(クリエイティブ・コモンズなど),データポリシー(欧州委員会,サンライト財団等),データリポジトリ(PANGAEA,Dryad,DataONE,GBIF(地球規模生物多様性情報機構)など),宣言文書・ハンドブック類(Bouchout宣言,『オープンデータ・ハンドブック』など),各国・地域政府機関,データジャーナル,技術文書(W3C,ISOなど),文献4)であった。

3.5 オープンデータ・インフラの機能性に対する期待

上位4つを占めたのは「著作権のハイライト表示」「永続的識別子で引用可能」「出版物へのリンク表示」「使用条件の明示」という,主としてデータ利用者からの要望であった(3)。

図3 インフラのサービスや機能性に対する期待(原典:Fig. 4; http://doi.org/10.1371/journal.pone.0146695.g004)

3.6 専門分野におけるオープンデータの重要性

「あなたのコミュニティーにおいて,オープンデータが研究の推進,社会実装,教育普及,人材育成・技術移転に対してどの程度重要ですか」と尋ねたところ,8割以上が研究の推進に「とても重要である」と回答した(4)。ただし,アンケートの回答者が標準的な研究者よりもオープンデータに肯定的であるというバイアスが影響している可能性がある。また,回答者の半数がオープンデータの社会実装が重要であると考えていることも注目に値する。

図4 専門分野におけるオープンデータの重要性(原典:Fig. 5; http://doi.org/10.1371/journal.pone.0146695.g005)

3.7 オープンデータを世に出す動機

データをオープンデータとして世に出す主な動機の第1は,研究成果を公表したいという,研究に本来備わっているモチベーションであった。具体的な動機は,「科学研究と成果実装を加速させたい」という科学コミュニティー全体にかかわる動機から,「研究成果をもっと認知してもらいたい」「個人的にオープンデータに貢献したい」あるいは「データ利用者からのリクエストに応じたい」といった個人的動機まで多岐にわたった(5)。第2に重視されたのは助成機関のデータポリシーであり,学協会や所属機関のデータポリシーがこれに次いだ。出版社のポリシーの重要度はこれらよりも低かった。このほか,データや引用,計量書誌のランキングやキャリアアップのためのインセンティブという回答もあった。データ管理者のオープンデータに貢献したいという個人的意欲(70%が「とても重要」,24.3%が「まあまあ重要」と回答)は,総じてデータ利用者(59.9%,33.7%)およびデータ提供者(61.1%,31.5%)よりも有意に高かった。

図5 オープンデータを世に出す動機(原典:Fig. 6; http://doi.org/10.1371/journal.pone.0146695.g006)

3.8 オープンデータを世に出す際の障壁

研究データをオープンデータとして世に出すのを阻害する主な障壁は,「成果を出版してからデータを公表したいという願望」と,「法的制約」「信用や正当な評価を失う恐れ」「誤解や誤用の恐れ」であるという結果が得られた(6)。データもしくはその公表にかかる法的信頼性に対する関心は低かった。このほか,データサイズ,怠慢,助成機関から要件として求められていないこと,データポリシーが多すぎること,引用・クレジット表示がないこと,標準を用いるのが難しいこと,データを使いやすいように整えるのに必要な時間やコストなどが,障壁として指摘された。

成果を出版してからデータを公表したいという願望は,若手(35歳以下)が最も強く,中堅(36~50歳)・ベテラン(51歳以上)の順に弱まる。5歳ごとの年齢層に分けてみると,30代前半(31~35歳)において,出版優先願望が障壁になっていると考える回答者の割合が最も大きかった(7)。

図6 オープンデータを世に出す際の障壁(原典:Fig. 7; http://doi.org/10.1371/journal.pone.0146695.g007)
図7 データを公表する前に出版したいという欲求の年齢層差(原典:Fig. 8; http://doi.org/10.1371/journal.pone.0146695.g008)

3.9 オープンデータの発見経路

オープンデータの発見経路について回答(複数選択可)を寄せた779人のうち,8割近くが「雑誌論文の参考文献」を挙げた(2)。「インターネットの検索エンジン」(70.5%)と「特定のデータリポジトリ内での検索」(63.2%)がこれに次ぐ。さらに,40.3%が「データ提供者に直接リクエストする」と答えた。「ニュースレターその他の出版物」(25.8%)や,「政府または機関からの周知」(21.1%)や「要覧またはカタログ」(17.5%)を挙げた回答者は相対的に少なく,ソーシャルメディアやブログを挙げた回答者は1割に満たなかった。その他(自由回答)としては,同僚や科学コミュニティーを介して個人的にコンタクトを取る,学会等でのプレゼンテーション,大型プロジェクト,(オープン)データジャーナル,メーリングリスト,データポータル,書籍,などが挙げられた。

表2 オープンデータの発見経路(原典:Table 9; http://doi.org/10.1371/journal.pone.0146695.t009)

3.10 データアーカイブ

データアーカイブには,データの検索を目的とするものとデータの公開を目的とするものがあり,今回の調査ではそれらを区別しなかった。お薦めのデータアーカイブを(訳注:検索・公開・先導的事例それぞれ3つまで)挙げるよう依頼したところ,データの検索を目的とするものとしては,GBIF,PANGAEA,Dryad,GenBank,Google,米国国立生物工学情報センター(NCBI),米国海洋大気庁(NOAA),NASA,欧州中期予報センター(ECMWF),米国地質調査所(USGS)などが挙がった。他方,データの公開を目的とするものとしては,PANGAEA,Dryad,GenBank,欧州ヌクレオチドアーカイブ(ENA),NOAA,GBIF,Figshare,GitHub,二酸化炭素情報分析センター(CDIAC),英国大気データセンター(BADC)の名が挙がった。また,先導的事例としては,NASA,Dryad,NOAA,GBIF,PANGAEA,Figshare,data.gov.auの名が挙がった。ちなみに,これらの設問から得られた回答は,データリポジトリの登録機関であるre3data.orgおよびDatabibと共有した。

3.11 アクセス・再利用の負担感

データにアクセスしたりデータを再利用したりする際の負担感について尋ねたところ,アクセス料金の負担感が最も大きかった(8)。また,回答者の約半数が,「データセットごとにデータの品質が異なる」「データの収集基準がまちまち」「データフォーマットがバラバラ」が差し障ると回答した。さらに,回答者の3分の1前後が,「データの解釈・再利用方法,アクセス方法がよくわからない」ことが障壁になると感じている。最下位の「著作権表示の情報へのアクセス」にあっても,7割の回答者が「明らかに負担である」または「やや負担である」と考えている。

図8 データにアクセスする際の負担感(原典:Fig. 10; http://doi.org/10.1371/journal.pone.0146695.g010)

3.12 オープンデータへの期待

(訳注:最後の設問で,どのようなデータのオープン化が進むとよいか尋ねたところ)特定の国・地域(中国,インド,ロシア,アジア,南米,フランス,開発途上国)の気候データへのアクセスの改善や,機関リポジトリを介したロングテールなデータセットのサポート,民間セクターおよび経済データへのアクセスなどに対するニーズがあることがわかった。

3.13 分野ごとの違い

オープンデータ化のモチベーションは,気候・大気科学分野が最も高かった。工学と計算機科学の研究者はオープンデータへの個人的貢献意欲が他の分野よりも高く,逆に経済学の研究者は低かった。オープンデータポリシーは社会科学分野で特に重視されており,助成機関のデータポリシーが2位,所属機関のデータポリシーが3位にランクインした。化学分野では,助成機関のデータポリシーが1位であった。経済学分野では,学協会のデータポリシーが1位,助成機関のデータポリシーが2位であり,どちらも8割の回答者が重要と答えた。出版社のオープンデータポリシーはほとんどの専門分野において重要度が低かったが,物理科学で75%,経済学で93%の回答者がある程度重要という認識を有していた。

オープンデータ化の障壁については,すべての分野において,先に論文を出版したいという願望が最大の障壁であると認識されていることがわかった。出版優先を障壁とみなす傾向は,生物科学と化学分野で有意に大きく,工学と経済学ではやや小さかった。経済学では67%,工学では50%の回答者が法的制約を障壁に挙げた。同様に,社会科学においても,法的ないし組織的制約が負担となっている傾向が看取された。やや特殊なのが健康科学で,商用利用の懸念が障壁の2位,組織的制約が3位という結果が得られた。

3.14 地域別の傾向

今回のアンケート調査は,インターネットを介して回答を呼びかけたが,回答者の地域構成比は欧州が63.9%,北米が17.3%,アジアが10.4%,オセアニアが4.2%,南米が3.0%,アフリカが1.1%であった。アジアと欧州の回答者は,北米の回答者に比べて法的制約への懸念が有意に強い。また,成果を出版してからデータを公開したいという願望は,オセアニアと欧州に比べてアジアで有意に強い。

4. 考察

今日の科学研究は以前に比べてデータ駆動型の科学と共同研究の比重が増している。大規模な計算資源やデータセットの登場により,環境問題のような複雑かつ多元的な課題に,学際的・超学際的に対処することができるようになった。しかしながら,科学コミュニティーは今,複雑度を増すデータを,透明性を確保した形で管理し統合・解釈しなければならないという技術的課題に直面している。これを克服するには,データのアーカイビングと共有に対するコミュニティーの意識を向上させる必要がある。今回の調査にも,その必要性を示す回答が寄せられた。

今回の調査では,進んでデータを共有する風潮が生まれているとはいえ,それが当たり前の作法となったというにはまだほど遠いということが明らかになった。データを共有する動機は研究と実装を加速すること,次いで科学上のメリットとデータ共有のエフォートを認知してもらうことであった。回答者の88%が,助成機関が認定するデータポリシーがオープンデータ化の動機となると認識していた。したがって,オープンデータアーカイビングを義務付けることにより,オープンデータの受容が進むものと予想される。

一次データを発見するために最もよく使われる手段は雑誌論文の参考文献リストであった。長い目で見ると個別のデータセットや論文への興味は失われ,メタデータとデータ両方のリンクトオープンデータやコンテンツマイニングに関心の比重が移るものと予想される。このことは出版社も認識済みだが,回答者の9割以上がデータへのアクセスやデータの再利用に対価を支払うことに多かれ少なかれ負担を感じており,無償または低料金が望ましいと考えている。

データをオープンデータとして世に出すにあたって最大の障壁となるのは,研究成果を出版してからデータを公開したいという願望であった。これは,著作権情報や引用可能性がデータインフラの最も重要な機能と考えられていることと方向性が一致する。データ共有の倫理的問題も過小評価するべきではない。

データの再利用に関しては,回答者のほとんどが,データの品質情報とメタデータが明示されていることが最も重要であると認識していた。信頼の置けるデータリポジトリがあることによって,研究者に技術的・事務的な支援を提供し,研究者の負担を軽減することができる。

5. ベルモント・フォーラムへの提言

今回の調査結果に基づき,ベルモント・フォーラムに下記のアクションをとることを推奨する。

  • •   助成機関はオープンデータアーカイビングを義務付けるべきである。義務化は国・地域レベルで推進する必要がある。その際,ポリシーの制定に十分なインフラと人的支援が得られることを考慮する。そのため,データアーカイビングのインフラは高品質のデータ管理を十分にサポートするものでなければならない。ベルモント・フォーラムであれば,誰が地球環境研究に関するどのようなデータをアーカイブしているかという情報を収集し,国際的なコンサルテーションを行うことができるはずである。それにより,データアーカイビングの公的インフラとガイドラインに関する無駄を省けるはずである。
  • •   科学上のメリットならびに研究および実装の加速が,今でもデータを公開する主要な動機である。したがって,オープンデータの共有と再利用のガイドラインを策定する際には,データの共有・再利用に関する倫理的側面を考慮に入れるべきである。
  • •   研究者ならびに現在と未来のデータプロフェッショナルに支援とトレーニングを調和的な方法で提供するべきである。
  • •   研究データ同盟(RDA)と協働して,インフラ間の相互運用をさらに促進するべきである。相互運用にあたっては全体的な要件(たとえば出版物および助成情報へのリンク)や専門分野ごとの慣習(用語やメタデータの標準)に配慮するべきである。

[紹介者からのコメント]

今回紹介した論文を知ったきっかけは,2016年3月に東京で開かれたRDA第7回総会5)6)であった。RDAは2013年に発足した研究データ管理に関する国際専門家フォーラムであり7),普段はオンラインベースの作業部会(Working GroupおよびInterest Group)に分かれて活動しており,半年に1回開催される総会で作業部会の報告と新しい作業部会の立ち上げを行うというスタイルで運営されている。紹介した論文は,第7回総会の「研究データのロングテール」作業部会において筆頭著者のビルジット・シュミット氏がベルモント・フォーラムのオープンデータに対する取り組みとして報告したものである。

ベルモント・フォーラムは,地球環境問題の国際研究プラットフォーム「フューチャー・アース」8)を財政的に支援するなど,地球環境研究の推進に重要な役割を担っている。フューチャー・アースの推進は,オープンサイエンスの推進とともに,2016年1月に閣議決定された第5期科学技術基本計画9)に明記された。同計画においては,研究データのオープン化が,雑誌論文等のオープンアクセス化と並ぶオープンサイエンスの実現方策と位置付けられた。ベルモント・フォーラムのオープンデータ調査は,この文脈において時宜を得たものであった。

今回のアンケート調査では,地球環境研究の諸分野において研究データのオープン化を進める際の最大の障壁が,論文を出版するまではデータを公開したくないという研究者の願望であることが明らかになった。意外なことに,そのような「論文優先主義」の考えは,インターネットの登場以降に学界に入り,インターネットを通じた情報流通に慣れ親しんでいるはずの30代前半の若手研究者に根強かった。30代前半といえば,ポスドクや任期付きの不安定なポストにあり,厳しいキャリア競争にさらされている世代である。論文では,助成機関によるルール制定がオープンデータ推進の第一方策とされたが,インセンティブのない状況で強制力を働かせても,検索・再利用しやすいように整理された高品質データが今よりも流通するようになるとは考えにくい。まず,データを公開することが業績として評価され,キャリアパスにつながるように,研究風土を変えていく必要がある。

今回の調査成果を踏まえ,助成機関が研究助成先にオープンデータアーカイビングを義務付けることが,ベルモント・フォーラムに対して提言された。公的研究資金による研究成果を広く社会に公開することは,OECDレポート10)11)によるオープンサイエンスの定義であり,その具体策として,オープンデータによるデータアーカイビングを義務付けるというのは,管見に初めて触れる提案である。ただし,義務化の対象が,助成を受ける研究者個人(ないしグループ)なのか,助成先研究者の所属機関なのかがまだ明らかでない。今回の調査の目的は,ベルモント・フォーラムに対して地球環境研究のオープンデータ推進方策に関する提言を行うことであり,実際のアクションはベルモント・フォーラムに委ねられる。ベルモント・フォーラムには,次のステップとして,オープンデータの具体的推進に関するアクション・プランの策定を期待したい。

今回のアンケート調査は,回答者の分布が欧州に偏っていた。しかしその中でも,アジアからの回答には,「論文優先主義」の考えや法的制約への懸念が他の地域より強いという特徴が明らかになった。今後,わが国およびアジア地域でオープンリサーチデータを推進する際には,国際動向を踏まえつつも,国・地域の事情に即した施策が必要になってくるものと思われる。日本版・アジア版調査の実施が待たれよう。

(総合地球環境学研究所 研究基盤国際センター 近藤康久)

参考文献
 
© 2016 Japan Science and Technology Agency
feedback
Top