情報管理
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
記事
日本の大学・研究機関における研究データの管理,保管,公開:質問紙調査に基づく現状報告
倉田 敬子松林 麻実子武田 将季
著者情報
ジャーナル フリー HTML

2017 年 60 巻 2 号 p. 119-127

詳細
著者抄録

研究データ共有に関して,新しい研究のあり方のビジョン,国・地域を超えた標準的ルールの設定,国・地域としての推進策などが議論されている。しかし,研究におけるデータ共有を推進するための具体的な施策については,海外でも事例報告や現状調査がなされだしたところである。本稿では,日本の大学・研究機関における,研究データの管理,保管,公開の現状に関して行った質問紙調査の結果を報告する。494機関に対して,研究データのオープン化の現状認識,研究データに関するガイドラインおよび管理計画,研究データ公開のための機関としての整備状況などについて尋ねた。その結果,データ管理計画もデータ保管のための整備もほとんど進んでいないこと,研究不正行為への対応のためのガイドラインのみ対応がなされていることが明らかになった。

1. はじめに

1.1 データ共有への関心の高まり

米国,ヨーロッパをはじめとして世界的に研究データ共有,オープンサイエンスに関する議論がなされている。オープンサイエンスとは何かについては人によっていろいろに表現されているが,ニールセンは雑誌論文だけでなく,生の実験データ,コンピューターコード,科学者個人の頭の中にあるアイデア,問い,ヒントなどすべての情報がネットワーク上にコンピューターでも読み取れる形態で表現され,科学者だけでなく一般にも開かれた形で,集合知としてそこから新しい意味を読み取ることで知識の蓄積がなされていく世界と述べている1)

その理想に向けて政策レベルで全体の枠組み,ビジョン,標準化・ルール化へ向けた議論が活発である。たとえば,ヨーロッパにおいて2015年から開始された欧州オープンサイエンスクラウド計画(European Open Science Cloud)では,技術基盤にとどまらない科学のあり方や人材育成までも含めた新しい方向性を提示しようとしている2)。日本においても内閣府のオープンサイエンスに関する検討会,G7科学技術大臣会合を受けた「つくばコミュニケ」において,社会,経済の発展にとってデータ共有の重要性が主張されている3)

一方で,研究者によるデータの公開や共有の実態は,一部の領域で先進的な事例がみられるものの,全体としてはいまだ進んでいるとはいえない。現在提起されている国や地域の政策は,大きな目標を設定しているものが多く,具体的,個別の活動を促すような施策までには至っていないように思われる。

1.2 データ共有のあり方と大学・研究機関の対応

データ共有を促進する要因としては,多様なものが挙げられているが4),分野や研究者の状況によって,データ共有への意識もこれまでの実績もまったく異なり,データが意味するものさえもさまざまである。

その中で,データ共有を行える環境,体制の整備は,データ共有を進めるための基盤の一つであることは間違いない。データを保管,公開する手段としては,(1)著者のウェブサイトや共有クラウド,(2)著者の所属する機関のリポジトリやアーカイブ,(3)当該分野の専門のデータアーカイブ,(4)学術雑誌出版社による論文の付加情報として保管,などがある。

また,データの公開や共有は行っていなくても,研究者たちは,何らかの手段でデータを保管している。最近は,日本でも研究不正への対応の一環として,大学等の研究機関が研究データの保管についての規定を定めることが求められている。

実際に研究者たちがデータの保管をどのように行っているかについては,数は少ないがいくつかの調査が行われている。たとえば,2013~2014年に米国のDataOneプロジェクト(地球と環境に関する研究データの保管,保存,アクセス,利用に焦点を当てた複数の組織の成員からなる協同プロジェクト)に参加する研究者に対してなされた調査では,データの保存場所についても尋ねている5)

この調査によると,「すべてのデータをDropboxなどのクラウドに保存している」研究者が50%,「自分のPCで保存している」研究者が40.5%と,基本的には自分のデータは自分で保管している研究者が多かった。逆に「出版社のリポジトリにはまったくデータを保管していない」研究者が80.6%,「分野単位のリポジトリをまったく利用していない」研究者が72.5%と高い割合を占めた。所属機関のサーバーに関しては,これらの中間といったところで,「すべてのデータをそこで保管している」研究者は18.3%,「ほとんどを保管している」が19.4%,「いくらか保管」が30.4%,「まったく保管していない」が31.9%であった。

日本においても,DIASとGRENE-ei注1)の両コミュニティーの研究者に対する調査がなされている6)。DIASとは大規模地球環境データの処理,統合,利用を行うための基盤構築プロジェクトであり,この名称は2006年から使われている。GRENE-eiはDIAS事業を受けて,2011年度から開始されたグリーンイノベーションの推進を目的として,人間活動から地球環境を考えるプロジェクトである。

この調査では研究データの利用と提供の現況,データを提供する動機としない理由,データ共有の重要性の認識,データ基盤への期待などを明らかにしている。回答数が38名と少ないが,現在のデータの保管場所と将来保管したい場所についても尋ねている。現在の保管場所としては,「職場のコンピューター」が47.4%と圧倒的で,「自分が管理するストレージ」が31.6%,「組織が管理するサーバー・ストレージ」が15.8%である。一方,将来の希望としては,「組織が管理するサーバー・ストレージ」が23.7%でトップになっている。それに続くのが「外部ウェブ・クラウド」で21.1%,「自分が管理するストレージ」で18.4%となっている。

ここで取り上げた2つの調査の対象者は,どちらも何らかの形でデータ共有に関わっている研究者で,データ共有への意識も高く,環境も他の一般的な研究者よりも恵まれている可能性が高い。にもかかわらず,現在データを保管している手段が基本的には自分のコンピューターやストレージという状況は,データ共有の最も基盤となる環境が整備されていないことを示唆している。

1.3 研究目的

これまでの研究者への質問紙調査では,データ共有を進めるうえでの基盤が整備されていないことが推測されるが,環境を整備すべき大学・研究機関が実際にどの程度データ共有に関して関心をもち,環境を整備し,支援を行っているのかについては明らかになっていない。日本においては,それほど整備が進んでいるとは考えられないが,今後どのように進展していくかをみるうえでも,まずベースラインとしての現状を把握することには意義があると考えた。

そこで,日本において研究を指向していると考えられる大学および研究機関に対して,広く研究成果の公開も含め,研究データの管理,保管,公開の現状と,現在の状況に関する認識を問う質問紙調査を行った。本稿ではその結果を報告する。

2. 調査の概要

2.1 調査対象

研究活動を行っており,研究データの管理,保管,公開の機能を担うと想定される大学と研究機関を対象に調査を行った。調査対象となる大学は,以下の基準で選択した。以下でA,B,C,Dとは,文部科学省「学術情報基盤実態調査結果報告」7)が示す規模による大学の種別である。

  • •   国立大学すべて
  • •   公立および私立大学のA・B
  • •   公立および私立大学のC・Dのうち医学部や科学技術系学部をもつ大学

結果として,調査対象は国立大学86大学,公立大学23大学,私立大学159大学の計268大学となった。

研究機関は,科学技術振興機構が提供している「関連機関一覧」8)から,以下の種別に分類されている機関を抽出した。

  • •   国立研究開発法人,中期目標管理法人,行政執行法人(58機関)
  • •   国立研究機関(31機関)
  • •   大学共同利用機関法人(24機関)

加えて,「財団法人」および「社団法人」「地方独立行政法人」のうち,機関のウェブサイトを閲覧して研究活動が確認された113機関を追加し,計226機関を抽出した。最終的に,大学と合わせた合計494機関を本研究の調査対象とした。

2.2 調査項目

日本の大学・研究機関における研究データの管理,保管,公開に関する実態を明らかにするために,質問紙調査を行った。調査項目は以下に示す5グループ33項目である。

  • 1. 研究成果および研究データのオープン化に関する方針の認知度(3項目)
  • 2. 研究成果のオープン化の現状(6項目)
  • 3. 研究データの保管に関するガイドラインの整備,研究データ管理に対する支援状況,研究データの公開の現状(13項目)
  • 4. 研究データの公開等の今後のあり方(6項目)
  • 5. フェースシート(5項目)

2.3 調査手順

調査対象の送付先住所は各機関ウェブサイトから調査した。宛名は「研究データ管理・保存関連部署」とし,回答する部署の決定は各機関の判断に委ねた。質問紙は2016年3月10日に発送し,同4月1日までに回答するように依頼した。なお,併せて,Googleフォームを用いた回答フォームを用意して,ウェブサイトからの回答も可能とした。集計に際しては,2016年4月8日に返答があったものまでを対象とした。有効回答数は151票,有効回答率は30.6%である。回答者の職位の割合を1に示す。

表1 回答者の職位(N=151)

3. 調査結果

3.1 オープン化に関する方針の認知度

本調査では研究成果および研究データに関するオープン化方針として,2013年開催のG8科学大臣会合で合意された「論文および研究データのオープン化に関する共同声明」,内閣府の国際的動向を踏まえたオープンサイエンスに関する検討会が出した「我が国におけるオープンサイエンス推進のあり方について~サイエンスの新たな飛躍の時代の幕開け~」(2015年3月),文科省学術情報委員会が出した「学術情報のオープン化の推進について(中間まとめ)」(2015年9月)を取り上げた。いずれについても「知っている」「聞いたことはあるが内容はよく知らない」「知らない」の3つの選択肢で回答してもらった。なお,これ以降掲載するパーセンテージは断りのないかぎり,回答総数151票に対するものである。

この3種類の方針を「知っている」と回答した者はそれぞれ25.2%,28.5%,36.4%で,逆に「知らない」という回答は,それぞれ39.7%,40.4%,34.4%であった。「G8声明」「内閣府報告」は「知らない」という回答の方が多いが,「文科省の中間まとめ」はわずかではあるが「知っている」が「知らない」を上回っている。

これを「大学」(N=89)と「研究機関」(N=59)とに分けてみてみると(機関種別に無回答の3票を除く),「大学」はすべての方針について「知っている」という回答が「知らない」という回答と同数か上回る結果となった(1)。特に「文部科学省の中間まとめ」については「知っている」(44.9%)が「知らない」(21.3%)の約2倍となっている。一方,「研究機関」ではすべての方針について「知らない」が「知っている」を上回っており,回答数に2倍以上の差がついている。

図1 オープン化方針の認知度

3.2 研究成果のオープンアクセス化

所属機関の研究者の研究成果の公開(特に雑誌論文のオープンアクセス化)に関する方針をもっているかどうかを尋ねたところ,現時点で何らかの規定をすでにもっていると回答した者は「義務化の規定を制定」(4.6%),「推奨の規定を制定」(7.9%)を合わせても12.5%にとどまった。調査を実施した2016年3月時点で一般にオープンアクセス方針を公開しているとされていたのは4大学1研究機関注2)であり,その結果が反映していると思われる(2)。

一方,所属研究者の研究業績データベースを作成し,ウェブサイトで誰もが検索できるように公開している機関は全体では35.1%にとどまったが,大学だけに限定してみる(N=89)と49.4%となっており,有意に高い数値である。機関リポジトリの構築・運用に関しても同様で,全体でみると56.3%であるが,大学だけに限定する(N=89)と77.5%と非常に多くの機関が構築・運用していることがわかる。

機関リポジトリに関しては,「構築・運用している」と回答した機関(N=85)の34.1%がJAIRO Cloudを利用しており,47.1%は「数千件規模」と回答した。国立情報学研究所の統計9)によれば,JAIRO Cloudのサービスが開始された2012年度以降,国内の機関リポジトリ運用数は急速に増加し,2016年12月時点では独自構築のサーバーで運用している機関よりもJAIRO Cloud利用館数の方が多くなっている(独自構築が297機関であるのに対して,JAIRO Cloud利用機関は354機関であり,構築中の115機関を含めると,6割程度がJAIRO Cloudを利用している)。

図2 OA化方針の制定状況(N=151)

3.3 研究データの管理,保管,公開

「研究活動における不正行為への対応等に関するガイドライン」(2014年8月26日文部科学大臣決定)を念頭におき,研究不正への対応という観点から研究データの保存,管理等のガイドラインを作成しているかを尋ねた結果を3に示す。なお,「その他」の回答で何らかの形でガイドラインを制定もしくは検討中であることがわかるものは,それぞれ「すでに制定」「検討中」に集計し直している。回答者の45.0%がすでに「研究データの内容,保存期間,方法など具体的な指針(ガイドライン)等を定め,周知している」と回答した。「案を検討しており,近く制定できる予定」(15.9%)という回答を含めると6割が何らかの対応を開始している。研究機関(N=59)が4割強なのに対して大学(N=89)は73.0%が対応を始めている。

一方,研究データ管理計画(Data Management Plan: DMP)については,「(存在自体を)知らない」という回答が最も多く41.1%,次いで「自機関の状況を把握していない」という回答が30.5%となり,7割の回答者がデータ管理計画そのものを知らないか自機関の状況を把握できていないという結果となった(1)。

当然のことながら以下に示すように,それに関わる支援は何も行われていなかった。具体的には,自機関の研究者に対してDMPに関連した支援を行っているかどうかを尋ねたところ,「研究データ管理計画に関する説明会,相談(書き方など)を行っている」(2.6%),「説明会や相談は行っていないが,海外の大学・研究機関のサイトなどの情報は提供している」(2.0%)に対して,「特に何も行っていない」(43.0%),「自機関の状況を把握していない」(6.6%),「無回答」(41.1%)という結果となった。無回答の割合が非常に多いのは,データ管理計画の存在自体を知らないという人々は答えようがなかったということを示していると思われる。

海外の学術出版社が発行する学術雑誌において論文の根拠になった研究データをできるかぎり公開することを求めている,という現状を踏まえ,研究者が研究データを保管,公開できるプラットフォームを整備しているかどうかを尋ねたところ,回答者の84.8%が「機関としては何も整備していない」と回答した。「(研究データ自体の管理は行っていないものの)研究者が自由に使えるデジタル保管場所を用意し,希望すれば公開も可能となっている」という回答は3.3%,「研究者が外部のクラウドサービス,デジタルアーカイブを利用することを支援している」という回答は2.6%とごく少数にとどまっていることから,多くの機関では研究データの保管を研究者個人に任せきりにしてしまっている現状が明らかになった(4)。

研究データを何らかの形で収集し,公開している(データベース,データアーカイブ,機関リポジトリなど)と回答したところは15機関にとどまった。ただし,これらの15機関についても,66.7%はデータアーカイブの規模を1TB以下と回答しており,本格的な公開であるとは考えにくい。「研究データ」が意味しているものにいまだに大きな揺れがあるということを示唆していると思われる。公開していると回答した機関にはその状況を尋ねたが,15機関のみの回答であり,一定の傾向はみられなかったため,ここでは割愛する。

図3 研究不正対応のための研究データガイドラインの制定
表2 研究データ管理計画作成の状況(N=151)
図4 プラットフォーム整備状況(N=151)

3.4 研究データ管理,保管,公開に関する現状認識と今後のあり方

「研究成果のオープン化の現状をどのように認識しているか」「研究データのオープン化の現状をどのように認識しているか」を尋ねたところ,いずれに関しても「国際的にはオープン化の流れが進んでいるが,日本はかなり遅れている」という回答が多かった(33.8%,32.5%)。ただし,研究データのオープン化に関しては「(日本でも)理念は浸透しつつある」という認識はみられた。また,いずれにおいても「わからない」という回答も2~3割(25.8%,29.8%)みられ,先の見通しが得られていない様子も明らかになった。

研究データの公開,共有の方針について,今後の可能性を3通り想定して尋ねた。

  • 方策A:研究分野ごとに,データフォーマットや共有の方針を決め,国際的に少数のデータアーカイブの構築に人員,予算を集中させ,研究者自らがデータを登録できるシステムを整備する。大学・研究機関は研究者のデータ登録活動の支援を行う。
  • 方策B:大学・研究機関ごとに,研究データを保管,共有できるデータアーカイブを構築し,研究者は基本的には所属機関のデータアーカイブにデータを登録する。分野ごとに国際的なデータアーカイブがある場合には,大学・研究機関がデータのリンクやハーベストのシステムを構築する。
  • 方策C:現在の学術雑誌を刊行している出版社や学会が,研究論文と論文の根拠となる研究データのリンク(DOI)を管理し,データ自体は分野のデータアーカイブもしくは大学・研究機関が構築するデータアーカイブでの保存に任せる。

いずれの方策においても「可能性はあるが他の方法も併用すべき」「わからない」という選択肢に回答が集中する結果となった(3)。今後の展開について,方向性がみえていない,決めかねている,ということを示していると思われる。

表3 研究データの公開方針の今後(N=151)
方策A 方策B 方策C
強く推進すべき 20.5% 13.2% 9.9%
可能性はあるが他の方法も併用 35.8% 47.7% 44.4%
可能性はない 17.2% 15.2% 16.6%
わからない 23.2% 21.9% 25.2%
その他 1.3% 0.7% 2.0%
無回答 2.0% 1.3% 2.0%
100.0% 100.0% 100.0%

4. 考察

日本の大学・研究機関では研究データの管理,保管,公開について,十分な認識もなく,現時点では具体的な動きは何もみられないことが明らかになった。今回の調査で唯一動きがみられたのは,研究不正への対応の一環として,研究データの保管を定めた規則やガイドラインを制定しているところが,特に大学においては多かった点だけである。しかし,これらの規定では,研究者が自分たちで保管することを義務づけているだけで,データの公開や共有へ結び付けるために大学が保管場所を用意するわけでも,外部での保管を支援するわけでもない。

このような認識,行動両方での低調さの根本原因は,研究活動においてデータ共有を推進することが何を意味するのかについての理解が進んでいないことにあると推察される。データ共有やオープンサイエンスは,研究成果のオープンアクセスをさらに進めるものとして,両者を連続的に理解するむきもある。しかし,成果のオープンアクセスとオープンサイエンスには大きな違いがあるのではないか。

研究成果のオープンアクセスに関しては,2004年に米国と英国でその推進を求める政策が出されることで,社会的な認知が広まり,その後紆余曲折がありながらもわずか10年余で,国際的にはかなりの進展がみられる(2013年における雑誌論文のオープンアクセスの割合を約37%としている)10)。今回の調査結果でも,大学の8割近くが機関リポジトリを構築し,直接ではないにしろ,成果のオープンアクセスを推進するための行動をとっているといえる。

これまで利用者が有料でしか読めなかった雑誌論文などが無料で読めるようになるというシステムは,学術情報流通の一大変革ではあろう。しかし,学術において研究者間で研究成果を自由に流通させることは基本的なことであり,それはオープンアクセスを主導したBOAIで「古くからの伝統と最新の技術の結合」と述べられたことにも現れている11)

一方,研究成果ではなく研究を進める中で必要とされる研究データは,これまでも研究を実施している研究者のものであり,その研究プロセスから切り離して考えられてはこなかった。データセンターでデータを集中管理する,もしくはファクトデータベースを整備するという形で,データ共有を進めようとする政策は,1960年代のNIST構想12)をはじめとして主張されてきた。しかしいずれも実用的なところまで整備が進むことはなかった。

現在,ヒトゲノムの解析データや地球環境に関する観測データなど,一部では国際的なデータ共有の枠組みがうまく機能し,データを蓄積し提供できている例はあるが,研究領域全体としては順調とはいいがたい。その根本には,研究者にとって成果を公表し共有することは当然でも,成果となる前の研究データを公開しさらに共有することは,研究そのもののあり方の変革を迫るものであることが大きく影響している。

オープンサイエンスとは何かということについても,十分な共通理解が確立されているとはいえない。成果だけでなく,研究データも,分析ツールも,アイデアもそのすべてを共有することだといわれても,それを具体的な研究活動の実践としてイメージできる研究者は少数であろう。

現在のところ,オープンサイエンスやデータ共有を進めるべきだという政策はあっても,具体的に何をやるべきなのかについて明らかにはなっていない。今回の調査の最後で,将来に関する3つのシナリオを示したが,どれが正解といえるわけではない。だからといって,大学や研究機関は方向性が定まるまで何もしなくていいということにはならないであろう。

たとえば,欧米の大学図書館では,研究助成機関によって義務化が始まっているDMPの作成を支援するため,情報提供や書き方のチュートリアルの作成,相談サービスなどを実施している13)14)

大学や研究機関がどこまで直接的にデータ保管の基盤構築を行っているかについては,欧米でも大規模な調査はなく全貌はよくわからない。ただし,研究データ管理についてさまざまな支援を行いつつあることで世界的に有名なエディンバラ大学15)では,情報センターと図書館が協力して「研究データサービス」を行っており,研究データの保管のためのストレージを数ペタバイト(PB)注3)提供している16)。この大学の研究データ管理に関する方針では,研究者にDMPの提出と研究データへのアクセスと再利用の保証を義務づけている。さらにすべての研究データを保管するのは大学の義務としている17)

日本においても,京都大学ではエディンバラ大学と同様の方向性を目指し,技術的基盤の整備を進めており,1PBの大規模ストレージを用意したことが報告されている18)。また,国立情報学研究所でも,2017年度からオープンサイエンスの動向に対応し,研究データを適切に管理・運用するための基盤の構築を行うための事業が開始される。今後どのような活動がなされていくかを見守るとともに,定期的な調査を行うことでその動向を把握していくことが必要と考えられる。

執筆者略歴

  • 倉田 敬子(くらた けいこ) kei.kurata@keio.jp

慶應義塾大学文学部教授。慶應義塾大学大学院 文学研究科単位取得退学。科学技術情報整備審議会委員。主著に『学術情報流通とオープンアクセス』(勁草書房)など。

  • 松林 麻実子(まつばやし まみこ) mamiko@slis.tsukuba.ac.jp

筑波大学図書館情報メディア系講師。慶應義塾大学大学院 文学研究科単位取得退学。主著に「オープンアクセスと大学図書館」(専門図書館279号)など。

  • 武田 将季(たけだ まさき) tmasaki@slis.tsukuba.ac.jp

筑波大学大学院 図書館情報メディア研究科・博士後期課程2年次。

本文の注
注1)  GRENE-eiとは,大学発グリーンイノベーション創出事業「グリーン・ネットワーク・オブ・エクセレンス(GRENE)」の中に設置された「環境情報分野」のことを指す。

注2)  京都大学,筑波大学,国際日本文化研究センター,九州大学,徳島大学である。2017年1月現在では,東京歯科大学,名古屋大学が加わり,6大学1機関となっている。

注3)  ペタバイトはデータや情報量を示す単位で,1,000兆(10の15乗)バイトもしくは1,125兆8,999億684万2,624(2の50乗)バイトとなる。

参考文献
 
© 2017 Japan Science and Technology Agency
feedback
Top