情報管理
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
レポート紹介
レポート紹介 Making Data Count:データレベルのメトリクス(指標)開発に向けた調査報告
池内 有為
著者情報
ジャーナル フリー HTML

2016 年 58 巻 11 号 p. 844-848

詳細

Kratz, John E.; Strasser, Carly. Making data count. Scientific Data. 2015, vol. 2, 150039 (2015). http://doi.org/10.1038/sdata.2015.39

[レポートの背景]

科学研究の成果は学術雑誌に論文として発表され,広く共有されてきた。論文のインパクトは,引用された回数などによって測定されている。近年,論文の根拠となるデータの公開が研究助成機関や学術雑誌によって推進され,データ出版(data publication)1)やデータ引用(data citation)2)といった用語も広まりつつある。そしていよいよデータの利用やインパクトを測定するための取り組みが盛んになってきた。

それでは,研究者やデータ管理者は,どのメトリクス(指標)を重視しているのだろうか? また,どのようにデータを共有し,入手し,活用しているのだろうか?

Making Data Count(以下,MDC)3)プロジェクトは,データのメトリクス開発に先立って,こうしたデータ共有に関する意識や実態を調査した。ここで紹介するレポートはその報告であり,調査データはカリフォルニアデジタルライブラリー(以下,CDL)のリポジトリで公開されている4)。MDCは,CDLとオープンアクセス出版社のPLOS(Public Library of Science),そして地球観測データセンターであるDataONE(Data Observation Network for Earth)の共同プロジェクトで,2014年10月に開始された。MDCの成果は,データを公開・利用しようとする研究者はもちろんのこと,リポジトリの管理者や研究データ管理に取り組む図書館員にも多くの示唆を与えてくれるだろう。

以下にレポートの内容を記す。

1. 序文

科学はデータによって裏付けられている。こうしたデータの生成や出版は研究業績として価値を認められるべきだが,まだその影響度を測るメトリクスがない。論文は引用回数やaltmetricsによってインパクトが評価されてきた。こうしたメトリクスはデータにも適用できると考えられるが,例外もある。たとえば,論文はダウンロードせずにオンラインでPDFを読むことができるため,閲覧数もメトリクスとなりうる。しかし,データの場合はランディングページを閲覧したとしてもダウンロードしなければ,論文と同様に評価することはできないだろう。したがって,データの作成者を評価し,データ出版にインセンティブを与えようとするならば,どのようにデータのインパクトを測定すればよいのかを検討しなければならない。

2. 調査の概要

2014年11月から12月にかけてオンライン調査を実施した。ソーシャルメディアやメーリングリスト,CDLとPLOSのブログで呼び掛けたところ,研究者247名,データ管理者73名から回答が得られた。

回答者のうち,データ管理者は学術機関(64%)や政府(22%)のリポジトリに従事しており,米国(72%)と英国(11%)が大半を占める。研究者の78%は高等教育機関の教員・研究者であり,米国(57%)や英国(14%)で勤務している。アカデミックキャリアは,主任研究者(42%)からポスドク(21%),大学院生(19%)にわたる。分野は生物学(53%),環境学(17%),社会科学(10%)の順に多かった。

3. 結果

本章では調査結果について説明する。なお,各グラフの白丸は各尺度の平均値を,エラーバーはブートストラップ法による95%信頼区間を示している。

3.1 共有,ディスカバリー,利用

a. データの共有方法

多くの先行研究と同様に,「個人的なリクエストに応えてデータを直接共有する」という回答が最も多かった。しかし,メールなどによるデータの個人的なやりとりは可視化できない。次いでデータベースかリポジトリでデータを共有している研究者も多く,75%近くにのぼった(1)。

図1

b. データの探索方法

研究者がデータを(再)利用する際の,5種類の探索方法について尋ねた。多くの研究者(63%)は複数の方法を採用しており,論文の参考文献,各分野のデータベース,一般的なサーチエンジンが多数を占めた(2)。

具体的な情報源として最も多く挙げられていたのはDryad(n=16)であり,次いでGoogleと論文(n=14)であった。データについて詳しい同僚にメールなどで尋ねるという回答も多かったが(n=12),メールによる共有と同様に可視化されないため測定することができない。

図2

c. いつ,どのくらいデータを使うか

科学者は公開データ(public data)を見つけた後,どのように使うのか。研究プロセス,すなわち研究の始めにアイデアや仮説を立てる段階から,終わりに主要な結論をサポートする段階まで,それぞれのプロセスでデータを使用する頻度を尋ねた。その結果,96%はプロセスのどこかで「場合によって」あるいは「頻繁に」公開データを使うと回答していた。図の通り,主に研究の始めと終わりに使われているが,回答者の70%は研究の中心となる主な結果に到達する段階においても,データを「場合によって」あるいは「頻繁に」使用している(3)。

研究者のデータセットに対する認識は,データ作成者の記載方法に反映されている(紹介者注:Kratzらは研究者を対象とした意識調査も別途行っている5)。その結果,論文に用いたデータ(作成者)の記載については,(1)正式な引用,(2)謝辞,(3)著者(authorship)の順に好ましいと考えられていた)。また,公開されたデータをどのような目的で使っているのかを尋ねることで,今日の科学における公開データの役割を明らかにした。

図3

3.2 (再)利用

d. データの利用者について

データの(再)利用者について,何を知りたいかと尋ねたところ,研究者の半数近くが1番目に「氏名と連絡先情報」を選択した。また,ほぼ同数が利用者の分野にも関心を示した(4)。

データ管理者に,データの利用者に関する情報の収集状況について尋ねた。約半数のリポジトリは氏名(47%)やメールアドレス(44%)などの情報を提供するよう求めていたが,半数(47%)はデータの利用者に関するいかなる情報も収集していなかった。センシティブデータを含む場合,データの利用を許可するために利用者の識別情報を知り,リクエストが適切かどうかを確認する必要があるだろう。一方で,手続きなしでオープンにアクセスできれば,より簡単にデータを利用できる。折衷案として,データを利用しようとしている分野について尋ねることで,利用者の匿名性を保ちつつデータがどのように利用されるのかを把握するという方法が考えられる。

図4

3.3 インパクトのメトリクス

e. データのインパクトの重要性

データのインパクトに関するメトリクスの重要度を尋ねたところ,引用が最も高く,研究者は85%が,データ管理者は61%が第1位としている。ダウンロード数は,研究者は2位,データ管理者は中位であった。なお,最下位はランディングページの閲覧数であった。この結果は,著者らによる先行調査の結果とも一致する(5)。

図5

f. データ管理者が追跡しているメトリクス/統計

ほぼすべてのリポジトリがダウンロード数を,次いでランディングページの閲覧数を追跡していたが,それらの数字を公開しているリポジトリは少なかった。引用については関心が高いものの,技術的に難しいことから全体の20%程度しか追跡していなかった(6)。

図6

4. 考察

本調査や多くの先行研究によって,研究者は引用を重視しており,また,自身のデータが引用されるよう望んでいることが明らかにされている。しかし,データ引用はまだほとんど行われていない。

2014年にFORCE11(The Future of Research Communications and e-Scholarship)によるデータ引用原則の共同声明6)が公開された。この共同声明には,DataCite,CODATA,Nature Publishing Groupを含めて94のリポジトリ,出版社,学術機関が賛同している。たとえばScientific Data誌のデータディスクリプタ(記述子)7)は,この共同声明のフォーマットに準じており,それぞれが少なくとも1つのデータ引用を含んでいる。なお,共同声明の運用ガイドはPeerJで公開されている8)

5. まとめ

本調査による指針は次の3点である。すなわち,(1)短期的には閲覧数やソーシャルメディアによる言及はあまり重要視されておらず,データに関するアクティビティも少ないことから,強調し過ぎない方がよい。(2)引用の追跡は困難だが,できる限り収集して強調するべきである。(3)研究者はダウンロード数を引用に次いで2番目に重要視している。また,測定も簡単であることから,リポジトリはダウンロード数を公開するべきである。

MDCは,データのメトリクスのためにMendeleyやFacebookなど13種類のソースを用いたPLOS Article Level Metricsツールを採用している。インフォーマルな引用(本文に記載されたデータの識別子)は,BioMed CentralやEurope PubMed CentralなどのOAコーパスから論文のフルテキストを使ってキャプチャしている。また,学術文献のデータ引用の情報源として,Nature OpenSearch APIも利用している。さらに,DataONEのデータセット(9万4,752件)をインポートしており,将来的にはDryadのデータセットも追加される。なお,Webベースのレポートや可視化ツールによって結果を公開する予定である。

[紹介者によるコメント]

著者らはメトリクスの開発理由として,データの作成者の評価とデータ出版へのインセンティブの付与を挙げている。既存の研究評価メトリクスは算出方法をはじめとするさまざまな問題が指摘されており,2014年にはライデンマニフェストが公開されている9)。透明性の高いメトリクスとなるよう,今後もデータの収集方法や重み付けの方法などを公開し,当事者である研究者やデータ管理者の意向を取り入れながら開発を進めてくれるよう願う。

紹介者は,このメトリクスが莫大(ばくだい)なデータから有用なデータを発見するための強力なツールになることを期待している。2015年11月現在,DOIが付与された論文などのオブジェクトが1億1,700万件を超える10)のに対して,DOIが付与されたデータは約660万件(5.4%)11)にとどまる。しかし,一般に1論文あたり複数のデータが作成・収集されることや情報通信技術の目覚ましい発達状況を考えあわせると,今後ますます多くのデータが流通すると予想される。コストを掛けて公開されたデータであっても,発見できなければ活用されないまま埋もれてしまう。研究者はデータを再利用する際に引用することによって,リポジトリはそれを追跡することによって,出版社はデータ引用を啓発することによって,それぞれがデータの発見に貢献できるだろう。

標準化されたデータ引用が普及すれば,MDCプロジェクトで開発しているようなメトリクスを用いたデータの効率的な発見が可能になる。こうした互恵的な取り組みによって,データの流通が活性化することを期待している。

(筑波大学大学院図書館情報メディア研究科 池内有為)

参考文献
 
© 2016 Japan Science and Technology Agency
feedback
Top