情報管理
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
記事
研究データへのDOI登録実験
武田 英明村山 泰啓中島 律子
著者情報
ジャーナル フリー HTML

2016 年 58 巻 10 号 p. 763-770

詳細
著者抄録

科学のオープン化,研究情報流通,さらには研究情報における識別子は,近年科学全体の大きなトピックスとなっている。分野を越えて研究データをより広く流通,公開させようとするとき,データの中身がわかるようにメタデータを登録し,データに識別子(ID)を付ける必要がある。DOI登録機関であるジャパンリンクセンターは,研究データへのDOI登録を開始するにあたり,国内研究機関等の参加による実験プロジェクトを行い,参加機関はDOIのテスト登録・本登録を実施した。機関内でのシステム構築や運用フロー整備を通じて課題の抽出・共有を行い,その議論の結果を「研究データに関するDOI登録ガイドライン」として取りまとめた。プロジェクトによって形成されたコミュニティーは,今後のオープンサイエンスの取り組みに寄与することが期待される。

1. はじめに

DOI(Digital Object Identifier)は主にインターネットに流通する電子データに登録する識別子であり,ジャパンリンクセンター注1)(以下「JaLC」という)は,DOI登録機関(Registration Agency: RA)として,日本発の学術コンテンツ情報を収集し,普及,利用を促進する目的で設立された。2012年3月にRAに認定されて以来,JaLCは主にジャーナルアーティクル(学術論文等)に対してDOIの登録を行ってきた。2014年12月には新システムのサービスを開始し,ジャーナルアーティクルに加えて,ジャーナル(逐次刊行物),研究報告書,書籍,研究データ,大学コース(eラーニング)と,DOI登録の対象コンテンツを拡大した1)

このうち,研究データへのDOI登録に関しては,世界的にもいまださまざまな課題の検討が進められている段階であり,日本においてはほとんど経験がない。そのため,JaLCで研究データへのDOI登録を開始するにあたり,書籍・文献などと異なる研究データ特有の課題抽出とその解決方法,運用方法の確立,DOIの活用方法などの検討を行い,わが国における研究データへのDOI登録の仕組みを参加機関とともに新たに構築することを目的として,実験プロジェクトを実施した。

2. プロジェクト実施の背景

2.1 オープンサイエンスと研究データ共有

科学のオープン化,研究情報流通の促進や識別子事業等についての議論は,以前から国内外でなされてきたものであるが,大きなトピックスとなった要因の1つはやはり2013年G8科学閣僚会合での研究データオープン化の合意だろう2)。国内ではこれを受け,内閣府での検討を経て,2014年12月から「国際動向を踏まえたオープンサイエンスに関する検討会」が開始されて2015年3月にわが国の基本方針が発表されたことは周知のとおりである。

内閣府のこの検討会では焦点を主に論文とデータのオープン化,共有化に絞って議論が行われた。広い意味ではオープンサイエンスは,論文やデータだけでなく,データの処理プログラム,計算機環境,実験環境,実験装置などさまざまな科学研究プロセスについても適用されうる概念であるが,わが国ですぐにすべてを議論できる状況ではなく,またそれが適当ともいえない。

ところで,ここで使っている「サイエンス」「科学」という言葉は,自然科学のみを指すのではなく,より広い意味で学問,あるいは人文・社会科学から自然科学・工学を含んだ領域を対象としていることに注意されたい。またこれらの高度な知見を基盤とした産業活動とのかかわりも今後重要と考えられている注2)

2013年G8サミットに相前後してRDA(Research Data Alliance:研究データ同盟)がスタートしているが,その名称の「研究データ」という言葉も,より広い領域をカバーする意図といわれる(産業界も包含する意図という意見もある)。いずれにせよ,研究者と呼ばれる専門家集団でだけ議論すべきもの,という意図でないことは確かであり,むしろ研究者だけでなく,社会一般に広く利用されるべき各分野の有用なデータ流通,というところに主眼があると解すべきである。

2.2 研究分野内でのデータ共有から研究分野を越えたデータ共有へ

研究データに関しては,データの他者との共有は,一定の研究分野やコミュニティーにおいて,世界的に行われてきている。国際アカデミーの代表的な組織であるICSU(International Council for Science:国際科学会議)においては,19世紀後半から北極・南極の国際的学術調査活動における国際データ共有が議論され,1957~1958年のIGY(International Geophysical Year:国際地球観測年)事業を契機に,WDC(World Data Center)パネルとして国際組織・国際事業が立ち上がった。以来50年以上にわたってWDC認定を受けた世界各国の研究機関・大学などでデータ保存・公開事業が行われてきた3)4)

このような,各専門分野におけるデータ共有事業は,素粒子物理学,化学,遺伝学などのその研究分野独自の要請によって実施されてきているが,近年のオープンサイエンスの議論においては分野を横断したデータ利用,インターネットや情報処理技術の目覚ましい発展に伴った新たなデータ利用,新たなデータ公開の仕組み,新たな社会制度の形成とそこでのデータ流通が焦点の1つとなっている。上で例に挙げたWDC事業はこうした流れの中で,2006年に国際組織を廃止し,2008年にFAGS(Federation of Astronomical and Geophysical Data analysis Services)事業と統合して新組織・新事業ICSU-WDS(World Data System)として再出発した。

2.3 分野を越えたデータ共有基盤に必要な要件

研究分野を越えて研究データを共有するには,研究分野内でのデータ共有とは異なる課題がある。

研究データには,データ本体と,そのデータフォーマットがある。データは,その分野の研究者の世界においては,そのデータの重要性やフォーマットはほぼ自明で,自分たちのフォーマットで流通すればよく,必要に応じて開発されて流通するので,その世界の中ではあまり問題は起こらない。

いま議論されているデータ共有と公開は,分野を越えてより広く流通,公開させようとするときのことで,データの中身がわかるようにメタデータを付けなければならず,メタデータを読み書きするためのメタデータ・スキーマというフォーマットが必要になる。さらに,データの流通のために,そのデータに識別子(ID)を付ける必要がある。ここまでしないと流通できない。また,誰でも利用できる状態でデータを保管する共通の仕組みとしてリポジトリが必要になる。

それぞれのレイヤーはレイヤー内で異なる機関,分野をまたがって相互運用性が確保されなければならないし,また,レイヤーの他とのデータが有機的に連携できなければならない。これらがまず基本的な構造になる(1)。

研究データの基盤である識別子,メタデータ・スキーマ,メタデータ,リポジトリの各レイヤーではそれぞれ課題を抱えている。

たとえば識別子のレイヤーでは,管理組織・体制,ID同士の連携といった課題がある。デジタル・オブジェクトに対する識別子としては後述するDOI以外にもARK注3)やHandleシステムを直接使った識別子システムなどがある。研究者等の人への識別子では研究活動にかかわる人への識別子であるORCID注4)やより広範に人に対する識別子を与えるISNI注5)などがある。

他のレイヤーでも同様で,メタデータ・スキーマとメタデータのレイヤーでは,記述言語やスキーマの収集・共有,スキーマ同士の変換などがある。リポジトリのレイヤーでは,システム開発と維持,コミュニティーのニーズ把握などがある。1つのレイヤーにたくさんのプレーヤーが関与している一方で,データ流通は共通の方法によらないとうまくいかないという点が重要である。

図1 研究データ流通を支える情報基盤のレイヤー

2.4 データ流通基盤におけるDOIの役割

DOIは一義的には識別子のレイヤーにかかわる。しかし,実はDOIは識別子だけにかかわるのではない。多くのRAは識別子とそれに対応するメタデータをデータベースに登録している。すなわち,メタデータとメタデータ・スキーマのレイヤーもDOIにかかわる。代表的なRAであるCrossRefやデータDOIのためのRAであるDataCite注6),そしてJaLCではそれぞれが定義したメタデータ・スキーマにのっとったメタデータとともにDOI登録を行っている。

DOIはもともと,オンライン化された学術論文のアクセス容易性を高めることが動機で始まったものであり,実際,CrossRefはそのためのサービスを行い,広く受け入れられてきた。実はDOIは仕組み的にはさまざまなオブジェクトに対して識別子を登録できるようになっている。しかし,サービス設計そのものは学術論文を念頭に作られてきた。

すなわち学術論文に代わって研究データにDOIを付けることは仕組み的には可能であるが,どのようなサービスとするのかはまだ発展途上である。特に対象がより多様性をもつため,この多様性をどうDOIの一意な仕組みで吸収するかは課題である。

研究データに対するDOI登録についてはDataCiteが先行して活動しているが,まだ発展途上であり,また国内でのニーズも知る必要がある。

このような状況から,JaLCではデータに対するDOI登録に先立って,登録のための手続きやポリシーを決めるための実験プロジェクトを行うことにした。

3. 研究データへのDOI登録実験プロジェクト

3.1 概要

本プロジェクトには,公募によって決定した国内の研究機関等9グループが参加した(1)。プロジェクトリーダーは,JaLC運営委員会委員長でもある武田が,サブリーダーは参加機関の立場より村山が務めた。プロジェクト実施期間は,2014年10月から2015年10月までの約1年間である。

プロジェクトにおいては,参加各グループが,研究データに対してDOIの登録テストを行い,得られた知見とミーティング等において議論された内容を基に,「研究データに関するDOI登録ガイドライン」(以下,「ガイドライン」という)を作成した。作成にあたっては,今後,研究機関等がデータに対するDOI登録を開始する際の指針になり,実作業への参考となることを目指した。プロジェクトの活動は,DOIテスト登録・本登録およびそのための検討やシステム構築等の参加機関における活動と,プロジェクト参加者が集まるミーティングから構成された。ミーティングは1か月半に1回程度,計8回開催し,その間各機関が行った活動の報告や,DOI登録に関するポリシーなどの議論を実施した。ミーティングには,参加機関のほか,JaLC運営委員会や分科会の委員,事務局メンバーも参加した。毎回40名近くが参加し,非常に活発に議論が行われ,本プロジェクトの成果物であるガイドラインの土台となった。

表1 プロジェクト参加機関および,各機関別DOI登録を検討したデータ
参加機関 DOI登録検討対象データ
(国研)科学技術振興機構 生命科学系データベースアーカイブの収録データセット
(共)情報・システム研究機構 国立極地研究所 地球科学・環境分野(北極域,南極域における実験および観測データ)
(共)情報・システム研究機構 国立情報学研究所 学術基盤推進部 データリポジトリの収録データ(歴史的資料物写真データ,科学衛星観測データ)
(共)情報・システム研究機構 国立情報学研究所 コンテンツ科学研究系
<地球環境情報統融合プログラム(DIAS)>
(共)情報・システム研究機構 国立情報学研究所
(大)東京大学 地球観測データ統融合連携研究機構
(国研)海洋研究開発機構
(大)京都大学 情報学研究科
地球科学データ(地上観測データ,衛星観測データ,気象予測モデル,気候変動予測モデル,その他社会データ)
(国研)産業技術総合研究所 材料系データベース等の収録データ
(国研)情報通信研究機構
<WDC参加機関>
(大)京都大学大学院 理学研究科附属地磁気世界資料解析センター
(国研)情報通信研究機構 電離圏及び宇宙天気に関する世界資料センター
(共)情報・システム研究機構 国立極地研究所 オーロラ世界資料センター
(国研)宇宙航空研究開発機構 宇宙科学衛星世界資料センター
超高層物理学分野(地磁気データ,電離層データ,オーロラ画像データ,衛星データ)
(大)千葉大学附属図書館 機関リポジトリの収録データのうち,主に植物標本
(国研)物質・材料研究機構 材料科学分野(電子顕微鏡画像データ等)
(国研)理化学研究所 脳科学総合研究センター 神経情報基盤センター 脳・神経科学分野データベースの収録データ

(国研):国立研究開発法人  (共):大学共同利用機関法人  (大):国立大学法人

3.2 DOIテスト登録・本登録

参加機関は,DOIの登録テストを行った。JaLCのDOI登録フローのイメージを2に示す。DOIは,2のIDF(国際DOI財団)注7)へ登録されて初めてインターネット上でアクセス可能になる。JaLCが研究データへDOIを登録するにあたっては,JaLCが直接IDFへ登録する経路と,DataCiteを介して登録する経路をもつ(JaLCはDataCiteの会員でもあるため。なお,DataCiteでの登録は英語のメタデータをもつ必要がある)。ここでIDFまでの本登録を行ってしまうとそのDOIにひも付くコンテンツは長期間にわたってアクセス可能にしておかなくてはならないため,検討段階ではテスト用のDOIを使用して登録はRA止まりとし,有効化は行わなかった。登録テストにより,各機関は,ローカルのデータベースからJaLCへのDOIとメタデータの登録,さらに機関によってはJaLCからDataCiteへのテストDOI登録を行い,その過程の手順を検証した。多くの場合,ローカルデータベースのメタデータとJaLCおよびDataCiteのメタデータとは親和性が高く,大きな問題なくマッピングが行われた。DOIにアクセスされた際に表示されるランディングページについては,ほとんどの場合,各機関のデータベースサービス上にもともと存在していた,データの内容を説明するページや,データベースの検索結果ページが活用できたが,一部,DOIの表示や,当該データを引用する際の書式,ライセンス情報等,追加すべき情報があるケースもあった。また今回,登録のためのシステムを構築した場合は特に,JaLCシステムのインターフェース部分について,システムの仕様やメタデータ定義に関する意見・要望も寄せられ,JaLCシステムの改善に貢献した。

テスト登録が順調に行われたのに対して,最終的にプロジェクト期間内に行われた本登録は2件のみであった。これは,DOIを登録したコンテンツを持続的にアクセス可能とするための体制を保証することのハードルが高いことが,理由として挙げられる。研究プロジェクトのように活動が有期的な場合は特に,プロジェクト終了後のデータ保存や公開の体制を見通すことが難しく,DOI登録を行えるような状況にないためである。

図2 JaLCにおけるDOIの登録フロー

3.3 「研究データに関するDOI登録ガイドライン」の取りまとめ

従来DOI登録が行われてきた論文記事においては,誰がどのようにコンテンツを作成し,メタデータ(書誌データ)を作成して,DOIを登録するかといったワークフローにあまりバリエーションがない。つまり,研究者が論文を執筆して投稿し,出版社がその公開・メタデータ作成・DOI登録を実施する,というフローのイメージが一般的に理解されやすい。しかし,研究データの場合,そのワークフローが明らかでなかったため,まずは各機関の状況について情報をもち寄り,1で示した情報基盤のレイヤーの概念に基づいてワークフローを議論した。その結果,研究データそのものは研究者が生成するが,DOIを登録しようとする場合にどのデータを対象とするかの判断や,メタデータの作成,DOI登録の役割を誰が担うかは機関ごとにさまざまであった。また,それらは研究データ管理のなされ方と密接に関連しているが,ガイドラインのスコープとしては,研究データの作成やその管理は対象とせず,メタデータの作成およびDOI登録とそれらの更新,削除に関する範囲と定めた。

ワークフローを整理することで今回の議論の前提について認識を統一することができたので,そのうえで,DOI登録対象の考え方や,登録するデータの粒度(データの塊の単位),ランディングページの要件等について議論した。当初,登録の規則に近いポリシー的なものを定める計画であったが,話し合ううちに,研究分野や機関によって状況はさまざまであり,規則を定めることは困難であることが明らかになってきた。そのため,規則のような義務的な事項ではなく,DOI登録にあたって行うべきこと,配慮するべきことについて推奨する事項を記述することを意図した「ガイドライン」という形で整備することとした。

重視したことは,DOI登録における基本的な要件である,コンテンツへの持続的なアクセスを保証するための方策である。研究データは論文と異なり,研究プロジェクトのように有期的で複数機関にまたがって組織されていたり,大学の研究室のような小規模で個人への依存度の高い団体によりコンテンツが作成されていることがよくある。そのような状況でも持続的なアクセスが保証されるためにJaLCが会員に求めるべき資格を検討した結果,やはり,従来と同様,原則としては存続期間の定めのない機関・団体のみがDOI登録が行えるJaLC会員および準会員になれるものとし,アクセスを保証すべきである,という結論となった。つまり,プロジェクト自体が会員になるということは原則許容しない。研究プロジェクトが1機関内で実施される場合はその機関が,複数機関にまたがる場合は,そのうちの1つまたは複数のプロジェクト参加機関が所属する組織がJaLC会員または準会員となりDOI登録を行う。

もう1つの大きなトピックスはDOIを登録する粒度であるが,これらには明確なルールがあるわけではないため,考慮すべき観点として,

・データ提供者が引用を期待する粒度

・データの性質を考慮した適切な単位(観測データ,実験データ,計算データ等種別の違いを含む)

・アクセスの容易さ,管理の容易さ

・DOIの数量(過量にならない)

  • を挙げた。

また,観測が継続的に行われる場合など,追加・更新が動的に発生するデータセットの取り扱いについても言及し,元のデータから変化したデータセットに別のDOIを新たに付ける場合,そのまま使用する場合などの選択肢や,新たに付ける場合の前世代のデータの保存など気を付けるべき点について,例を挙げて説明している。

まとめとして,本ガイドラインで記述された内容を考慮し,DOIを登録する際には,当該機関でDOI登録ポリシーを定め,それに従って運用することを推奨している。本プロジェクトの参加機関の事例を記載するなど具体的な例を挙げ,今後,初めてDOIを登録する機関等の参考になるように工夫した。

本ガイドラインは,JaLCのWebサイトで公開されている注8)

4. おわりに

本プロジェクトによって,国内にノウハウのなかった研究データへのDOI登録について一通りの方法を確立することができた。そして,多岐の分野にわたる研究機関からの参加者がDOIというテーマの下に顔を合わせて議論を行うことで,1つのコミュニティーを形成することができたことも大きな成果である。一方で,今回は,DOIを活用する段階までは道筋を付けられなかった。今後は,データ引用の仕組み作りやアプリケーション開発など,登録したDOIの活用に向けた活動が進み,コンテンツを生成した研究者やコンテンツ管理者がDOIを登録することのメリットを実感できるようになることが望まれる。

また今回のDOI登録ガイドラインは,必ずしも最終形であるわけではない。今後,取り組みを進めていくほどに,登録機関側もエンドユーザー側もそれぞれに新たな課題や問題点に気付くことも予想される。ガイドラインの再検討,改良・改善が継続的に行われていくことが必要になるかもしれない。そのときには,今回の実験を通じて形成されたコミュニティーが重要な検討のための母体になることも期待される。

研究データDOIについて欧米でも実験的な取り組みが進められ,さまざまなことが検討中の現段階で,わが国でも今回の取り組みが始められたことは大変意義深い。今後,日本のコミュニティーから派生した活動が立ち上がり,研究データのDOIを活用するための取り組みが広がっていくことを期待したい。

執筆者略歴

  • 武田 英明(たけだ ひであき)

ノルウェー工科大学,奈良先端科学技術大学院大学を経て,2000年国立情報学研究所助教授,2003年より同教授。専門分野はWeb情報学,人工知能,設計学。現在,ジャパンリンクセンター運営委員会委員長,ORCID理事,特定非営利活動法人リンクト・オープン・データ・イニシアティブ理事長等を務める。

  • 村山 泰啓(むらやま やすひろ)

専門は超高層大気物理学・リモートセンシング。アラスカでの成層圏・中間圏観測に長く携わり,実験観測データベースの開発も行ってきた。ICSU-WDS科学委員会ex officio委員,国立極地研究所南極観測審議委員,京都大学生存圏研究所客員教授,日本地球惑星科学連合理事などを歴任。

  • 中島 律子(なかじま りつこ)

科学技術振興機構にて物質・材料データベース,文献データベースの開発・運用,ネットワーク構築・運用等に携わり,現在,ジャパンリンクセンターおよび電子ジャーナルサイトJ-STAGEの運営業務に従事。

本文の注
注1)  ジャパンリンクセンター:https://japanlinkcenter.org/top/

注2)  例として以下がある。

・Oettinger, H. Günther "Open science for a knowledge and data-driven economy":https://ec.europa.eu/commission/2014-2019/oettinger/blog/open-science-knowledge-and-data-driven-economy_en

・Moedas, Carlos "Opening up to an ERA of Innovation":https://ec.europa.eu/commission/2014-2019/moedas/blog/opening-era-innovation_en

注4)  ORCID:http://orcid.org/

注5)  ISNI:http://www.isni.org/

注6)  DataCite:https://www.datacite.org/

注7)  IDF:https://www.doi.org/

参考文献
 
© 2016 Japan Science and Technology Agency
feedback
Top