2018 年 60 巻 10 号 p. 719-729
日本国内において,機関リポジトリに登録されたコンテンツのメタデータは,junii2を標準的なメタデータスキーマとして,国立情報学研究所(NII)の学術機関リポジトリデータベース(IRDB)を介して広く流通している。近年の学術情報流通をめぐる国際的な状況の変化や技術的な発展に対応し,日本の学術成果の円滑な国際的流通を図るため,オープンアクセスリポジトリ推進協会(JPCOAR)では,junii2に代わる次世代のメタデータスキーマとして,2017年10月に「JPCOARスキーマ ver1.0」を公表した。本稿では,策定過程での議論も含め,新しいメタデータスキーマの考え方と概要を紹介する。
本稿は,クリエイティブ・コモンズ 表示 4.0 国際(CC BY 4.0)ライセンスの下に提供する。
日本国内において,機関リポジトリに登録されたコンテンツのメタデータは,junii2注1)を標準的なメタデータスキーマとして,国立情報学研究所(NII)の学術機関リポジトリデータベース(IRDB)を介して広く流通している。「大学図書館と国立情報学研究所との連携・協力推進会議」の下に設置された機関リポジトリ推進委員会注2)では,近年の学術情報流通をめぐる国際的な状況の変化や技術的な発展に対応し,日本の学術成果の円滑な国際的流通を図るため,junii2に代わる次世代のメタデータスキーマを検討するタスクフォースを設置し,2016年3月から検討を重ねてきた。2017年度からはオープンアクセスリポジトリ推進協会(JPCOAR)注3),1)の下に設置されたメタデータ普及タスクフォースが活動を継承し,その成果として2017年10月に「JPCOARスキーマver1.0」を正式公開した2),3)。本稿では,策定過程での議論も含め,新しいメタデータスキーマの考え方と概要を紹介する。
日本の機関リポジトリのメタデータスキーマの歴史は,2002年のNIIメタデータ・データベース共同構築事業までさかのぼる4)。同事業は,全国の大学・研究機関等がネットワーク上で配信する学術情報資源のメタデータ・データベースを共同で構築することを目的としており,登録されたメタデータは「大学Webサイト資源検索」(JuNii注4)大学情報メタデータ・ポータル試験提供版)システムから公開されていた5)。同事業を開始するに当たり,共通のメタデータスキーマを策定する必要が生じたため,2001年にNII内部で組織されたメタデータ・データベース検討ワーキンググループの検討を経て,Dublin Core Metadata Element Set(DCMES)に準拠した15のメタデータ記述要素注5)が採用された。
その後,2005年に開始されたNII最先端学術情報基盤(CSI)委託事業による機関リポジトリ構築機関の拡大に伴い,JuNiiには機関リポジトリのポータルとしての役割が期待されるようになった。NIIはJuNiiのメタデータスキーマ改訂に取り組み,2006年に機関リポジトリのメタデータの収集と流通を目的としたメタデータスキーマjunii2を策定した。その後,NIIは機関リポジトリポータルJuNii+を試験公開し,さらに後継サービスの学術機関リポジトリポータルJAIROを試験公開,2009年より正式にサービスを開始した6)。
しかしながら,各機関リポジトリのメタデータ記述方法が統一されず,効果的な検索ができない可能性が指摘されたため,2009年に作成されたjunii2ガイドライン(案)への意見募集を経て,翌2010年3月にガイドラインのバージョン 1.0注6)が公開された。その後,学位規則改正対応等に伴う数回の改訂が行われ注7),2017年10月現在,junii2ガイドライン バージョン 3.1注8)に至っている。
2.2 学術情報流通をめぐる時代の変化2015年の内閣府の報告書注9)を契機に,機関リポジトリにはオープンサイエンスを支える基盤としての役割も求められるようになった。また,2016年にはIRDBのメタデータが欧州のオープンアクセス/助成事業成果プラットフォームOpenAIRE注10)へ提供され7),国際的なネットワーク構築の機運も高まりつつあった(図1)。
この潮流を受け,機関リポジトリ推進委員会では,研究データをはじめとするコンテンツの多様化,論文のオープンアクセス(OA)状況の把握,国際的な相互運用性の確保といった課題に対応するため,複数のワーキンググループによって必要なメタデータ要素の調査が行われた8),9)。その結果,今後のオープンサイエンスの展開を見据えたjunii2の抜本的な改訂が必要との認識が共有され,新たなメタデータスキーマの策定に向けて検討が始まった。
junii2の改訂に当たり,以下に述べる3点の基本方針を策定した。基本方針は2016年10月に公開し10),2017年3月に実施したJPCOARスキーマ(案)に関する意見募集において広く意見を求めた11)。
3.1 オープンサイエンスおよびオープンアクセス方針への対応近年,欧米を中心に公的研究助成を受けた学術成果の公開が助成機関や政府の方針として推進されている。日本でも助成機関や大学においてOA方針を策定する機関が増加し12),13),14),学術論文のみならず研究データも含めた学術成果の公開を志向するオープンサイエンスに関する検討が政策レベルで進められている15)。このような流れを受けて,JPCOARスキーマでは研究データ管理等の新たな社会的要請に対応する要素を追加した。
具体的には,研究データの正確な発見,識別,引用を推進する国際組織であるDataCite注11)のメタデータスキーマを採用し,多様な役割が生じる寄与者の種類を属性として記述可能とするなどの対応を行った。また,公的研究助成を受けた学術成果を把握し,公開を促進するため,助成機関に関する要素や,コンテンツのOAの状態を記述するアクセス権の要素を新たに追加した。
3.2 識別子の拡充に伴うメタデータ構造の修正情報の正確な識別のためには,ある実体を他の実体と曖昧さなく区別するための識別子が重要となる。さらに,学術成果のメタデータが著者の所属機関内にとどまらず,国内および海外の関係サービスへと流通する現代の学術情報流通において,国際的に流通性の高い識別子を使用する必要がある。この点を考慮に入れて,論文,研究者,機関レベルの識別子の追加や整理を行った。また,現在のjunii2の各要素はすべての情報をフラットに記述する構造となっており,要素間の関連性を機械的に処理することが難しい。この課題に対応するため,関連する情報をグルーピング(階層化)して記述可能とすることで,より正確に情報を処理できるようにした。
3.3 国際的な相互運用性の向上学術情報の国際的な流通性を高めるため,改訂に際して国際動向を調査し,国際的な相互運用性が高く,今後IRDBの主要な連携先となることが想定されるOpenAIREのメタデータスキーマの方針を参考にすることとした。また,OpenAIREにおいても,欧州のみならず国際的な研究成果の収集および公開促進を目的としたリポジトリ管理者向けガイドラインの改訂を行っている段階であったため,双方の定義に齟齬(そご)が生じないよう,情報共有を図りながらJPCOARスキーマの策定を進めた。さらに,OpenAIREで採用予定であるオープンアクセスリポジトリ連合(COAR)のcontrolled vocabularies(統制語彙)注12)から資源タイプおよびアクセス権を採用した。COARの統制語彙は,SKOS注13)標準の採用によって,語彙の他にURI,定義,多言語の語彙名称,他の統制語彙へのリンクを有する仕組みとなっており,メタデータの正確性や国際的な相互運用性の向上を図っている。JPCOARメタデータ普及(旧称:検討)タスクフォースのメンバーからもCOAR統制語彙の編集委員会注14)に参加し,語彙名称の翻訳や必要な語彙の追加について意見を交わした。特にCOARの資源タイプは語彙が階層化されており,またその種類も多岐にわたるため,正確な運用が難しいことを懸念し,JPCOARスキーマでは当面必要とされる語彙に絞って採用することで,類似する概念の語彙の混同使用を避けることとした。
このように,基本的には国際的なメタデータスキーマを採用しながらも,日本固有の事情を反映した複合的なメタデータスキーマを策定し,ガイドラインによる定義の明示や主要連携先とのマッピングを提供することで,相互運用性を確保している。
JPCOARスキーマは3階層,79要素,15種類の属性から構成される(表1)。junii2と比較すると要素や属性の種類数のみならず,使用する語彙を規定した統制語彙や言語属性の使用可能な要素数についても増加している。また,識別子やURI形式での記述箇所を増やすことで,より精緻なメタデータ記述および流通が可能となっている。
対象とするコンテンツについては,学術論文を主対象とする点はjunii2と変わりないが,研究データ等の新しいコンテンツに対応した。国内の学術情報流通における普及や安定的な運用についてはjunii2の実績を参考にするとともに,国際的な相互運用性や持続可能性も兼ね備えたメタデータスキーマとなることを目指して検討を重ねた。
junii2 | JPCOARスキーマ | |
---|---|---|
構造 | 1階層 | 3階層 |
要素数 | 64要素 | 79要素(68種類) |
移行・内容改訂 | 21要素 | 21要素 |
統合・廃止 | 43要素 | 7要素 |
新規追加・拡張 | - | 51要素 |
属性の種類 | 4種類 | 15種類 |
言語属性(使用可能な要素数) | 6要素 | 26要素 |
言語属性以外(使用可能な要素数) | 14要素 | 29要素 |
識別子の種類 | 12種類 | 28種類 |
統制語彙(使用する要素・属性数) | 5要素 | 22要素・属性 |
JPCOARスキーマの策定においては,3章3節で述べたようにメタデータの国際的な相互運用性を考慮して,OpenAIREを中心に,DataCite,DC-NDL注15),Dublin Core,RIOXX注16)等の外部のメタデータスキーマを参考にした。
表2に示すとおり,JPCOARスキーマの最上位の要素のうち外部スキーマを利用したものは17ある。それらの中から,検討の際に特に議論のあったものを中心にその経緯を概説する。
外部スキーマの採用に当たって,異なるスキーマに同様の要素が存在する場合,より汎用(はんよう)的なスキーマの要素を採用することとした。たとえば,コンテンツのタイトルを表す要素はさまざまなスキーマに現れるが,最も汎用的なDublin Coreの要素を採用している。
JPCOARスキーマにおけるOA方針対応の目的は,主に公的研究助成の研究成果のオープン化の達成度を捕捉することである。そのためには,OAの状態(OAかどうかやエンバーゴ終了日等)を明確にメタデータで示す必要がある。この要素としてRIOXXのfree_to_read,OpenAIREのAccess LevelおよびEmbargo End Dateを検討し,当初はアクセス状況を表す語彙と日付情報でより詳細な表現ができるOpenAIREの方式を候補とした。最終的には,Access Levelに代わり,COARの統制語彙を値にもつ独自要素のdcterms:accessRights(アクセス権)を採用し,またEmbargo End Dateについてはdatacite:date(日付)で表現可能であると判断した。
オープンサイエンス対応として,公的研究助成に関する情報の管理も必要になってくる。外部スキーマの該当要素には,DataCiteのfundingReference,OpenAIREのProject Identifier,RIOXXのproject等がある。OpenAIREおよびRIOXXは研究課題情報の記述に独自の語彙や記述ルールを採用しているため,より汎用的で日本の助成情報の記述にも対応できるDataCiteをベースに定義した。ただし助成機関名(jpcoar:funderName)と助成課題名(jpcoar:awardTitle)については,日英両方で記述できるよう言語属性に対応した結果,それぞれ独自に定義する必要があり,それに伴い,上位要素である助成情報(jpcoar:fundingReference)についても独自定義となった。
学位論文の記述については,国立国会図書館(NDL)との連携を考慮して,主にDC-NDLの要素を採用している。junii2は資源タイプで博士論文,修士論文,学士論文の区別ができないが,JPCOARスキーマでは後述するCOARの統制語彙を資源タイプに採用することで,これらの区別が可能となる。それに伴い,NDLに提供する博士論文を識別するjunii2の著者版フラグ「ETD」はJPCOARスキーマでは不要となる。なお,学位授与機関については,後述の作成者と同様に識別子への対応を考慮し,独自要素としているが,総じてjunii2よりもメタデータの相互運用性を考慮した構成になっている。
スキーマ | 要素名 | 採用理由 | |
---|---|---|---|
DataCite | 日付 | date | 語彙の対応 |
内容記述 | description | 語彙の対応 | |
位置情報 | geoLocation | 研究データ情報対応 | |
バージョン情報 | version | ||
DC-NDL | 学位授与年月日 | dateGranted | 学位論文のNDL連携 |
学位授与機関名 | degreeName | ||
学位授与番号 | dissertationNumber | ||
Dublin Core | アクセス権 | accessRights | 汎用的なスキーマ |
その他のタイトル | alternative | ||
言語 | language | ||
出版者 | publisher | ||
権利情報 | rights | ||
時間的範囲 | temporal | ||
タイトル | title | ||
資源タイプ | type | ||
OpenAIRE | 出版タイプ | versionType | 語彙の対応 |
RIOXX | APC | apc | RIOXXのみ |
3章3節のとおり,国際的な相互運用性を考慮し,語彙についても外部の統制語彙の採用を基本方針とした。紙幅の都合上,代表的なものの紹介にとどめるが,たとえば,junii2で使用している日本独自の資源タイプ(NIItype)を見直し,資源タイプ(dc:type)にはCOARの統制語彙であるResource Type Vocabularyを採用した。採用に当たって,両者の相違が課題となった。たとえばjunii2の「Departmental Bulletin Paper(紀要論文)」や「Learning Material(教材)」は,Resource Type Vocabularyに対応する語彙が存在しない。そこで,当面は,これらは日本独自の語彙として採用し,メタデータを国際流通させる際には,それぞれ「Journal Article」「Others」に対応づけることとした。ただし,「Departmental Bulletin Paper」は日本の機関リポジトリの主要なコンテンツであり,また「Learning Material」は国際的にも重要な語彙であることから,将来的にResource Type Vocabularyに加えるよう提案している。なお,前述のアクセス権についてもCOARの統制語彙であるAccess Rights Vocabularyから語彙を採用している。
一方,DataCiteからも語彙を採用している。たとえば,公開日や作成日等のさまざまな日付情報は当初,junii2のように個別の要素とすることを検討していたが,DataCiteのdate要素のように属性を用いてまとめる方が合理的であると判断した。ただし,4章2節のとおり,学位論文の学位授与年月日についてはDC-NDLの要素を採用している。なお,コンテンツのエンバーゴ期間を示すには,アクセス権(dcterms:accessRights)を「embargoed access」とし,date要素にdateType=“Available”を指定し,利用開始日を入力することになる。エンバーゴが終了すると,アクセス権を「open access」に修正する必要がある。また,寄与者(jpcoar:contributor)の種類に関する語彙をDataCiteから採用している。「DataCollector」「DataCurator」等,役割に応じた語彙を選択でき,研究者の役割に応じた貢献度を明示することが可能になる。
4.4 拡張要素・属性一方で,JPCOARスキーマの最上位の要素のうち,名称が「jpcoar:~」となっている18個は,外部の標準的なメタデータスキーマにはない,独自に定めた要素である。
ただし,これらの大半は,われわれが一から考案したわけではない。日本のメタデータの国際的相互運用性を高めるためには,なるべく独自要素は少ない方がよい。しかしながら,外部の要素を用いて実際にメタデータを記述しようとすると,仕様が不足あるいは過剰な場合もあった。また,JPCOARスキーマ全体を見渡したときに,他の要素とのバランスやjunii2との後方互換性に配慮する必要が出てくることもあった。これらの理由から,外部スキーマの既存の要素に改変を加えることを決断し,独自要素となってしまったものが多い。その場合でも,なるべく日本の独自色を減らすように配慮した(表3)。
検討の際にとりわけ多くの時間を割いた作成者(jpcoar:creator)と関連情報(jpcoar:relation)について,要素のポイント(特にjunii2との相違点)と記述例を紹介したい。
要素名 | 参考にした要素 | 独自要素にした理由 | |
---|---|---|---|
作成者 | jpcoar:creator | datacite:creator | ・nameIdentifierSchemeの値を追加 ・creatorAlternativeを追加 |
寄与者 | jpcoar:contributor | datacite:contributor | ・nameIdentifierSchemeの値を追加 ・contributorAlternativeを追加 ・ contributorType=“RightsHolder” を別要素jpcoar:rightsHolderとして独立 |
権利者情報 | jpcoar:rightsHolder | datacite:contributor (contributorType=rightsHolder) |
|
主題 | jpcoar:subject | datacite:subject | ・subjectSchemeの値を追加 |
識別子 | jpcoar:identifier | datacite:identifier | ・identifierTypeの値を追加 |
ID登録 | jpcoar:identifierRegistration | ||
関連情報 | jpcoar:relation | datacite:relatedIdentifier | ・relationTypeの値を追加・削除 ・relatedIdentifierTypeの値を追加・削除 ・relatedMetadataScheme,schemeURI,schemeTypeを削除 ・relatedTitleを追加 |
助成情報 | jpcoar:fundingReference | datacite:fundingReference | ・下位要素に独自要素jpcoar:funderName,jpcoar:awardTitleをもつため |
収録物識別子 | jpcoar:sourceIdentifier | ||
収録物名 | jpcoar:sourceTitle | ||
巻 | jpcoar:volume | ||
号 | jpcoar:issue | ||
ページ数 | jpcoar:numPages | ||
開始ページ | jpcoar:pageStart | ||
終了ページ | jpcoar:pageEnd | ||
学位授与機関 | jpcoar:degreeGrantor | dcndl:degreeGrantor | ・nameIdentifier,nameIdentifierScheme,degreeGrantorNameを追加 |
会議記述 | jpcoar:conference | ||
ファイル情報 | jpcoar:file | OpenAIRE v4 |
現在,NIIでは,2018年度の運用開始に向けてIRDBをJPCOARスキーマに対応させるための改修を行っている。IRDBでは,652の機関リポジトリ(2017年10月末現在)からメタデータを収集し,CiNiiをはじめとした外部のサービスにメタデータを提供している。これまで,収集したメタデータは,ほぼそのままの形で外部のサービスに提供していた。しかしながら,開発中の次期CiNiiでは,論文,図書・雑誌,博士論文に加え,研究助成情報や研究データ等のメタデータ統合を予定しており,これらのメタデータとIRDBのメタデータをリンクして利用できることを考慮する必要がある。さらに,国際的な流通の観点からも,質の高いメタデータを収集し提供することが求められている。そのため,改修後のIRDBでは,収集したメタデータの正規化や検証(バリデーション)等を新たに実施する。できる限り精緻かつ誤りのないデータを収集し提供することで,国内外の学術情報流通環境の向上に資するものと考えている。
さらに,JPCOARとNIIが共同で運営している共用リポジトリサービスのJAIRO Cloudでは,JPCOARスキーマに対応した次期JAIRO Cloudを2019年度に試行運用予定である。544もの機関が利用する(2017年10月末現在,構築中の機関含む)JAIRO Cloudの対応により,JPCOARスキーマの普及を加速させていきたい。
5.2 課題と将来展望JPCOARスキーマの策定では,学術雑誌論文や学位論文だけではなく,研究データや会議資料等に必要な要素も取り込み,多様な学術情報を扱えるように設計した。これらは,学術成果の円滑なメタデータ流通に必要な情報を整理することが目的であった。一方で,学術情報としては,研究の素材となりうるような書籍や文書,博物資料等のデジタル化も今後ますます増えてくるであろう。大学図書館はかなり早い時期から貴重資料等の所蔵資料のデジタルアーカイブに取り組んできた。これらは機関リポジトリを通じて公開されているケースもある。しかしデジタルアーカイブの場合,対象とする資料に合わせて独自のメタデータが付与されているケースが多く,また,多くの所蔵機関に散在しているため,データを集約して利用することができていない。
今後の課題として,JPCOARスキーマの対象コンテンツとして所蔵資料のデジタルアーカイブについても検討していく必要があるだろう。
今回は,日本の機関リポジトリのメタデータを集約し,国際的に認知されているサービスへ流通を図るため,メタデータ交換先として,OpenAIREを念頭において作業を進めた。これは,データ連携先が明確な場合の作業であったといえる。一方で,近年のさまざまなWebサービスでの活用を考えた場合,次の段階としては他の形式でのデータ提供も検討対象となるだろう。各機関リポジトリへの影響も考慮し,プロトコルはOAI-PMHを維持することとしたが,国際的な動向を見極めつつ,後継プロトコルを検討することも課題となる。
また,オープンサイエンスの進展のために,識別子の重要性を強く意識して作業を進めてきた。記述の精緻化に注力するよりも,識別子を適切に付与し,扱いやすいデータ構造とすることが,これからのメタデータにとって最も重要であるというのがJPCOARスキーマの基本的な考え方である。極論すれば,外部のサービスから得られる情報は識別子が明確であればよく,機関リポジトリでオリジナルな情報の管理へ力を注ぐことに,日本の図書館員がもつメタデータの力が必要とされていると考えている。
JPCOARスキーマが普及し,日本の学術情報がさまざまなサービスに活用されることを期待している注17)。
JPCOARスキーマは,パブリックコメントやイベント等を通していただいた多くの方々の意見を参考に取りまとめたものである。貴重なご意見をいただいた方々に感謝申し上げたい。
最後に,JPCOARスキーマの策定に多大なご尽力をいただいたメタデータ普及(旧称:検討)タスクフォースメンバーでNIIの大向一輝氏,片岡真氏,山地一禎氏,北海道大学の佐々木翼氏,東京大学の石田唯氏,前田朗氏,神戸大学の松村友花氏,およびタスクフォースの活動を支援していただいたJPCOAR事務局の船山桂子氏,丸山寛氏に感謝の意を表する。
ORCID iD: https://orcid.org/0000-0003-0204-2274
岡山大学附属図書館・情報管理課に勤務。基盤グループに所属し,機関リポジトリ等のシステム管理を担当。2016年に機関リポジトリ推進委員会協力員としてJPCOARスキーマの策定に参加。
ORCID iD: https://orcid.org/0000-0002-1212-4081
2015年よりお茶の水女子大学 図書・情報課に勤務。情報基盤担当として大学全体の事務システムの運用支援を担当。2016年よりJPCOARスキーマの策定に携わっている。
ORCID iD: https://orcid.org/0000-0002-4960-330X
千葉大学附属図書館 利用支援企画課長。東北大学附属図書館,新潟大学附属図書館,宮城教育大学図書館,一橋大学附属図書館,国立情報学研究所を経て,2016年より現職。オープンアクセスリポジトリ推進協会(JPCOAR)運営委員会委員(メタデータ普及タスクフォース主査)。国立大学図書館協会オープンアクセス委員会委員。LODチャレンジ2017実行委員。http://researchmap.jp/tnanako/
ORCID iD: https://orcid.org/0000-0001-9820-8333
国立情報学研究所 学術基盤推進部学術コンテンツ課に勤務。機関リポジトリ担当としてJAIRO Cloud,IRDBの運用を担当。2016年よりJPCOARスキーマの策定に携わっている。
ORCID iD: https://orcid.org/0000-0001-7761-3444
九州大学附属図書館 eリソースサービス室リポジトリ係長。図書館業務システム統括,Webサービス,機関リポジトリ,資料デジタル化を担当。国立国会図書館カレントアウェアネス編集企画員。学術認証運営委員会委員(図書館系サービス部会主査)。2016年よりJPCOARスキーマの策定に携わっている。
ORCID iD: https://orcid.org/0000-0002-7280-3342
2005年より国立極地研究所 情報図書室に勤務。2007~2008年,第49次日本南極地域観測隊に参加。その後,東京大学駒場図書館(2011~2014年)を経て現職に戻る。JaLC運営委員会サービス企画分科会委員。2016年よりJPCOARスキーマの策定に携わっている。
なお,「メタデータ・フォーマット」はメタデータスキーマと同義である。
http://www.ll.chiba-u.jp/curator/about/about_2004_2015/symposium2005/SymposiumRecord_1.html