2013 年 56 巻 9 号 p. 582-591
農林水産研究情報総合センターでは各種のAPIを活用した図書館サービスを2003年から展開してきた。本稿では,API導入の目的と運用,またその効果について紹介する。API導入後,農林水産関係試験研究機関総合目録の2012年の検索回数を分析したところ,APIを経由した検索回数は通常のOPACでの検索回数と比較して2倍以上であったなど,利用の増加があった。また,2013年3月に行ったシステム更新においては,国立国会図書館ダブリンコアメタデータ記述(DC-NDL)での出力に対応するなど,Linked Open Data(LOD)への対応に向けた改善を図った。
農林水産省農林水産研究情報総合センター(以下,「情報総合センター」という)では,農林水産分野に関する国内外の研究情報を迅速かつ的確に収集・提供することを目的に,関係分野の文献収集とデータベースによる情報提供を行っている。データベースによる情報提供にあたっては,Webによる検索サービスのほか,RSSなど機械可読に適した形式で各種のAPI(Application Programming Interface)を経由して検索やメタデータの提供を行っている。
本稿では,情報総合センターにおけるデータベースによる情報提供の現状,特にAPI導入の目的と効果などについて紹介するほか,今後の展望について述べる。
情報総合センターでは,従来より農林水産研究総合ポータルサイト「AGROPEDIA(アグロペディア)」を開設し,農林水産省が所管する試験研究機関および試験研究を業務とする独立行政法人の52の研究拠点図書室の総合目録である農林水産関係試験研究機関総合目録(以下,「総合目録」という)のほか,農林水産関係の研究課題,研究成果情報,全文を含む研究論文など,「現在どのような研究が行われ,どのような成果が出ているか」までを網羅する総合的な情報サービスを提供している。2012年には,これらのコンテンツや外部の情報も含めて効率的に迅速にアクセスできるように,検索機能を強化した統合検索ツールAgriKnowledge(http://agriknowledge.affrc.go.jp/)の提供を開始した。提供しているデータベースとその概要を表1に示す。AgriKnowledgeにおいては特に,これまで個別の検索インターフェースで提供されていたデータベースを統合することで利便性の向上を図っている。また,総合目録と同様にAPIを付加することで,外部からの横断検索のほかメタデータ提供を円滑に行うことを可能としている。
JASI(日本農学文献記事索引) | 国内で毎年発行される農林水産関係の学術雑誌約500誌に掲載された論文等の書誌情報を収録。 |
AGROLib | 試験研究機関研究報告,公立試験研究機関報告等,大学研究報告等,学・協会誌などで,電子化と掲載の許諾を得られた全文情報。 |
研究課題データベース | 農林水産関係独立行政法人等試験研究機関において実施されている研究課題の情報。 |
研究業績データベース | 農林水産関係独立行政法人等試験研究機関において実施されている研究業績の情報。 |
研究成果情報 | 農林水産関係独立行政法人等試験研究機関の新たに得られた知見や開発された技術をまとめたデータベース。 |
農林認定品種データベース | 試験研究機関が育成した農作物で,その特性が優良なものについて農林水産省の新品種として決定し,普及に資するために認定された品種のうち,昭和4年(1929年)以降に登録された品種を画像と共に公開。 |
ビデオライブラリー | 農林水産関係独立行政法人等試験研究機関の研究内容や成果等のビデオ映像。 |
農機具データベース | 「農林業技術発達関係資料調査収集事業」で収集した明治時代から100年余りの間に使用された農具類,民具類の写真を解説,約3,800点のデータベース。 |
総合目録およびAgriKnowledgeではAPIを実装し,XML等でのデータ出力に対応しているが,この理由について述べる。
1つは横断検索への対応である。情報総合センターにおいて2004年に横断検索システム,MetaLibを導入しており,このシステムへの対応にAPIの利用が必要となった。併せて,横断検索のための一般的なプロトコルに対応することで,外部のシステム,サービスとの連携を可能とし,保有するデータベースの利用機会を増やすことが目的である。この結果,国立国会図書館が提供する国立国会図書館サーチとは,その前身である国立国会図書館デジタルアーカイブポータル(PORTA)を含め2008年から横断検索による連携を実現している。
もう1つはデータそのものの提供である。情報総合センターにおいては2003年から図書・雑誌の新着受入情報をRSSにより配信しているが,このRSSをベースに機械可読形式で記述した書誌情報を配信し特定のインターフェースに依存しない情報提供と利活用を行う「OPAC2.0」を2006年に提唱した1)。
この後,2008年にはOpenSearchなど他のAPIの実装とMARCXML注1)による書誌データの提供を開始するなど,横断検索だけでなくメタデータそのものが提供可能な基盤の整備を行った。例えばAgriKnowledgeにおいては,日本農学文献記事索引(Japanese Agricultural Sciences Index: JASI)のうち全文へのリンクがあるメタデータをOAI-PMHにより出力し,国立情報学研究所が提供する論文検索サービス,CiNiiに提供している2)。CiNiiでは,取得したJASIのメタデータから全文へのリンクを抽出して,蓄積されている文献のメタデータに新たに付け加える。これにより,CiNiiで検索した論文の全文がAgriKnowledgeで公開されている場合は,JASIのリンクを表示することができる。このように,メタデータを提供し共用できる基盤の構築により,AgriKnowledgeの利用だけでなく,国内有数の論文検索サービスであるCiNiiからの全文到達率の向上にも寄与し,国内発の学術情報の利用環境そのものを向上させる効果を生んでいる。
本章では,これまでに情報総合センターで提供してきたAPIの概要と利用の様態について述べる。表2に総合目録で提供しているAPIの一覧をまとめた。また,APIそれぞれの利用イメージを図1に示す。出力するデータ形式については,2013年3月のシステム更新の際に見直しを行い,CiNii Booksに準拠したRDF注2),junii2注3),国立国会図書館ダブリンコアメタデータ記述(DC-NDL)注4)の3種のメタデータスキーマを追加した。また,より可用性を高めるため,XMLより軽量な記述形式であるJSON(JavaScript Object Notation)注5)での出力を追加した。
主な用途 | 名称 | 想定される利用法 | データ形式 |
---|---|---|---|
更新情報の提供 | RSS | Webブラウザ,RSSリーダを使用して更新情報を 自動受信する |
HTML RSS1.0 RSS2.0(2013年2月まで) MARCXML(2013年2月まで) MODS(2013年2月まで) |
検索インターフェース | OpenSearch | Webブラウザの検索窓から直接データベースを 検索横断検索サービスの構築 |
HTML RSS1.0 MARCXML (以下は2013年2月まで対応) MODS RSS2.0 (以下は2013年3月から対応) ATOM DC-NDL junii2 RDF(CiNii Books準拠) JSON |
SRU/SRW | 横断検索サービスの構築 | MARCXML | |
メタデータ提供 | OAI-PMH | メタデータを統合した検索サービスの提供 | oai_dc MARCXML (以下は2013年2月まで対応) MODS (以下は2013年3月から対応) DC-NDL junii2 RDF(CiNii Books準拠) |
状態情報の通知 | NCIP | 図書館システムから検索サービスへ資料の状態を 送信 |
XML |
2003年よりRSSによる新着情報の提供を開始した。当初は,総合目録に新たに受け入れた図書および雑誌を52の図書館ごとに提供するRSSに加え,農林水産政策研究所および農林水産省が所管する6つの独立行政法人のWebサイトの新着情報ページを毎日取得してRSSを自動生成して配信するサービスを提供していた。また,これらを取りまとめ,「MAFFIN News Feed Center」として一覧表示するWebページを公開した3)。現在は各Webサイトで独自にRSSの提供を行っているため,情報総合センターでのRSS自動生成は行っていない。
RSSは主としてWebサイトの更新情報出力向けに開発された機能であるが,情報総合センターにおいては更新情報に加えて書誌情報の出力にも使用した。2008年から2013年2月までの間はMARCXML,MODS注6)での出力にも対応させ,RSSをコンテナとしてMARCXMLなどで記述された詳細な書誌情報を埋め込んで配信を行った。
同様のサービスは国立国会図書館でも行われている。国立国会図書館サーチを経由して「新着書誌情報(作成中書誌)」および「全国書誌(作成完了書誌)」の2種がRSS2.0にDC-NDLを加えた記述で配信されている。
RSSについては,当初は研究者など利用者が自機関図書室の新着資料を迅速に把握できることを想定して導入したが,アクセスログを解析したところ,RSSへのアクセスのうち70%以上がGoogleなどの検索エンジンのロボットからのアクセスであった。このことから,GoogleなどのロボットがRSS経由で書誌情報を収集し,検索サイトからも目録検索が行えるようになったことがRSSによる新着の書誌情報配信の効果の1つとして挙げられる。図2にGoogleからどのようなキーワードで検索して総合目録へアクセスしたかを集計した結果を示す。上位に書誌名と思われるキーワードが見られることから,特定のタイトルを検索した結果として総合目録の書誌情報が表示され,アクセスに繋がったものと考えられる。このようなGoogleからのアクセスは全体の20%を占めた。なお,2013年5月時点では,2013年3月のシステムの更新と仕様変更に伴い,ロボットによるアクセスを停止しているためGoogle経由でのアクセスは5%以下となっている(図3)。
外部からの横断検索に対応できる検索インターフェースの1つとして,2006年よりOpenSearchの提供を開始した。
OpenSearchは2005年にAmazon.comの子会社A9によって開発,公開された検索エンジンへの標準的なアクセス方法の1つで,横断的な検索にも対応している。現在は,http://www.opensearch.org/で最新版であるOpenSearch1.1(Draft5)がクリエイティブ・コモンズ・ライセンス下でA9によりライセンスされている。このバージョン1.1からはRSSに加えHTMLで検索結果を返すことが仕様に加わり,これを基に横断検索だけでなくWebブラウザの検索バーにも対応した。これにより,例えばAmazonであればWebサイトを表示せずともWebブラウザ上で検索を実行することができる。Internet Explorer,Firefox,Chromeとよく使われるWebブラウザのいずれにも対応しており,OpenSearchに対応した検索プラグインをインストールすることも容易である。Googleなどの検索エンジンのほか,国立国会図書館サーチ,CiNii ArticlesおよびCiNii Books,JSTORなど図書館関連の検索サービスでも多く利用されている。
「検索要求に対してRSSで検索結果を返す」ことが基本仕様であるため実装も比較的容易で,情報総合センターにおいては横断検索向けのみならず,「Webブラウザから総合目録を直接検索する手段」として活用した4)。また,国立国会図書館デジタルアーカイブポータル(PORTA)はその開発当初からOpenSearchに対応した検索サービスを連携対象としており,情報総合センターは2008年から横断検索による連携を開始した。PORTAでは総合目録が横断検索される仕様となっていたため,検索回数は月間で160万回を超えることもあった。PORTAの後継である国立国会図書館サーチの横断検索対象が利用者による個別選択式になってからは,月間で20万~40万回程度のアクセスを得ている。これはAPIを経由しない通常の検索インターフェースからの検索回数と比較して2倍近い回数となっている(図4)。
AgriKnowledgeにおいてもOpenSearchによる検索インターフェースを提供しており,検索パラメーターに拡張を施すことで,データベースの指定やタイトルや著者のAND検索も行うことができる。
3.4 SRU/SRW図書館の世界においては,横断検索用プロトコルとしてz39.50がWebの登場以前から多くのシステムで用いられてきた。このz39.50の後継と言えるのがSRU/SRW(Search/Retrieve via URL/Search/Retrieve Web Service)である。いずれもHTTP上で検索と結果の取得を行うもので,SRUはREST注7)に基づき検索要求をURLで送信し,SRWはSOAP注8)を使用してXMLで検索要求を送信するなど,検索時の通信に使用するプロトコルが異なる。
情報総合センターにおいても,2004年に導入した横断検索システムMetaLib(Ex Libris社製)からのSRUによる検索に対応することを主目的として,総合目録に導入した。導入後は,外部からの横断検索の対応への利用を期待したが,MetaLib以外のサービスからの横断検索にはこれまで使用されていない。特にSRWについての使用実績はない。OpenSearchと比較すると,SRU/SRWによるインターフェースを提供している検索サービスは決して多くない。また検索機能そのものにはSRU/SRWに機能面で優位性があるものの,PORTAとの連携時にこの2つをインターフェースとして国立国会図書館に提示したところOpenSearchが選択されている。これらの点から,実装にあたっての容易さなどの違いから普及や利用に差があるのではないかと考えられる。
3.5 OAI-PMHOAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting)は機関リポジトリ等においてメタデータを「刈り取る」(Harvesting)ためのプロトコルで,主としてメタデータの収集のために利用される。情報総合センターにおいては,総合目録には2008年から,AgriKnowledgeには2011年からそれぞれ導入している。
総合目録へは,OPACを超えた新たな検索サービスを検討するため,書誌のメタデータを図書館システムから標準的な手法で出力する手段として導入した。翌2009年からこの機能を利用して出力した書誌情報を,オープンソースのディスカバリサービス用ソフトウェア,eXtensible Catalog注9)の試験に利用している。AgriKnowledgeでは,この経験や国立情報学研究所,国立国会図書館等の動向を踏まえ,JASI(日本農学文献記事索引)などのデータベースのメタデータ出力により,他所での利用を可能とするためにOAI-PMHを使用している。この機能により,前述のとおりCiNii ArticlesやJ-GLOBALへ全文リンクつきのメタデータを提供し,国内の学術情報流通環境の向上に貢献している。
そのほかに情報総合センター内部では,AgriKnowledge上でのJASIのメタデータ入力作業時に,総合目録上の雑誌書誌データをOAI-PMHであらかじめ収集し,雑誌名,責任表示,出版者などの書誌情報を流用することで,入力量の低減など作業の効率化を図っている。
3.6 NCIPNCIP(NISO Circulation Interchange Protocol: NISO 39. 83)は図書館システムなどの間で貸出・ILL(図書館間相互貸借)に関するデータを交換するためのプロトコルで,システム間で在架・貸出中など資料の状態や予約リクエストの送信などを行うことができる。
情報総合センターにおいては,変化の少ない書誌および所蔵情報のみをeXtensible Catalogを使用して検索インターフェース側で保持し,常に変化が予想される所蔵状態をこのNCIPにより図書館システムから必要なときに確認する試行を行った。所蔵状態の確認(item lookup)のみの実装であったが,ディスカバリサービス注10)など検索インターフェースと蔵書の物理的な管理システムとを分割してサービスを運用する際の課題抽出を有効に行うことができた。
前章で述べたとおり,複数年にわたり多様なAPIを導入し運用を行った。この間,有効かつ多様なサービス展開が行えたことはもちろん,APIそのものの有効性の検証や,将来へ向けての試行を行うことができた。
情報総合センターにおいてこれらのAPIの実装と運用,またサービス提供を可能としたのは,総合目録,AgriKnowledgeともに市販のパッケージシステムを使用せず,オリジナルで構築したシステムであったことも要因である。総合目録については,基盤となる図書資料管理システムを1996年に導入して以来,2013年2月末まで16年間の間に3回の更新を行ったが,一貫して同一のシステムベンダーによる独自構築のシステムで運用を続けてきた。AgriKnowledgeについても,前身となるシステムのときから同様の経過をたどっている。
いずれも,独自に開発したシステムであったため,APIを含め業務や利用から生じた要望に即した機能開発を随時行うことができるなどのメリットがあった。その一方で,新たな機能の追加に伴う不具合の発生などが課題であった。さらに,予算と運用スタッフの減少から,独自のシステムを維持し続けることは困難になりつつあった。また,標準的なAPIの提供など先端的な機能を有しているものの,他に同じシステムを導入しているユーザーが存在しないため市販の図書館システムへの普及は遅く,新規の機能開発に対して投資を行った効果が得られたのか,またAPIの導入が一般的な図書館サービスという観点から適切であったのかどうか,客観的に把握することはできなかった。
しかし,大学図書館におけるディスカバリサービスの急速な普及に伴い,既存の図書館システムで管理されていた書誌情報を出力しディスカバリサービスに統合する必要性から,OAI-PMHやNCIPなどのAPIを図書館システムに標準で提供する動きが見られるなど,図書館システムでのAPI導入がようやく始まった印象がある。
このような状況から,2013年3月のシステム更新に向けた仕様策定にあたっては,独自システムでのデメリットを排するほか,情報総合センターがこれまで蓄積した技術を継承すること,特に一般的な図書館システムへのAPIの普及を念頭に置き,市販の図書館システムを中心に構築する方針で検討を進めた。
4.2. システムの更新とAPIの普及へ向けた再構築2012年8月に行った入札の結果,リンクリゾルバなど関連のシステムを含めた全体の設計と取りまとめ者としては,これまでと同じシステムベンダーが落札したが,図書館システムについては市販のパッケージシステム(富士通株式会社製 iLiswave-J)を導入することとなった。RSS,OpenSearchなどこれまで提供してきたAPIについては,従来の仕様を変更しながらも将来的には標準で製品として提供されることを前提にカスタマイズで構築することとなった。
RSSについては,研究者への新着情報の提供手段の1つになるという当初の予想を大きく外れ,検索エンジンに新たなコンテンツを提供するための手段に変化したと言える。このことを踏まえ,配信する内容については機械可読性が高く情報量の多いMARCXMLなどではなく,詳細でなくとも確実に書誌情報へのリンクを提供できるRSS1.0を基本とした記述に仕様を変更することとした。
一方,OpenSearchやSRU/SRWといった横断検索系のAPIについては,これらを集約して検索できるWebサイトが国立国会図書館サーチなど少数に留まっている。これまでの利用実績と今後の活用の可能性を検討した結果,SRUのみを継続し,利用のなかったSRWは提供を中止することとした。AgriKnowledgeについては,設計の当初からSRU/SRWの実装を見送っている。
総合目録と国立国会図書館サーチとの連携については,検索の効率や書誌同定などの利便性を考慮してOpenSearchによる横断検索からOAI-PMHでのメタデータ提供に切り替えるべく準備を進めている。このようなメタデータを集約したサービスに対応すべく,出力するメタデータ形式についてもjunii2やDC-NDLなど,より汎用性の高いものとした。また,2013年3月のシステム更新で導入したディスカバリサービス,Primoへの書誌データの登載を考慮し,MARCXMLでの出力機能も継続して有している。Primoと図書館システムの間はNCIPで連携し,貸出中・整理中・在架など資料の状態をリアルタイムで参照可能としている。
試行を行っていたeXtensible Catalogについては,障害時にも検索サービスを提供するバックアップ検索サーバーとして再構築した。総合目録およびAgriKnowledgeについて,沖縄のデータセンターに設置したバックアップ検索サーバーにメタデータを日々収集し,情報総合センターが被災しても検索サービスを提供できるよう備えている。NCIPによる資料の状態確認は行えないが,所蔵資料の検索と所在は確認できることから,全国に点在する研究拠点での研究開発への影響を最小限とすることができると考えている。
このように,2013年3月のシステム更新においては,市販の図書館システムへの搭載を前提に,これまで培った技術をより広く利用が可能な形で見直し,サービスとして提供することとした。
独自のシステムから市販パッケージシステムへの移行は多くの困難や予想できなかった障害を伴った。例えば,OAI-PMHによる書誌情報の出力については,初期のデータ投入に必要な全件の出力が予想より高負荷であったこと,国立国会図書館との連携に伴うNACSIS-CATフォーマットとDC-NDL間での記述要素の互換性の検討に時間を要したことなどである。また,こちらの要望やサービスに対する背景や思想をこれまでとまったく異なる開発者に対してうまく伝えることができず,結果として行き違いが生じたこともあった。しかし,導入後半年を経過した現在,これらの障害等はほぼ改善されつつある。
以上,情報総合センターにおけるこれまでの取り組みを振り返った。当初は要素技術の実装自体が先行していたことは否めないが,徐々に他所で利用できるデータ提供サービスを成してきた。今後は,APIに必要な要素技術の新たな実装ではなく,既存のAPIを通じて出力できるメタデータをどのように利用するかに力点を置くことを検討している。
特にLinked Open Data(LOD)注11)に注目している。図書館が信頼できるメタデータの提供拠点であるならば,Web上のリソースを相互に結びつけるというLODは図書館のサービスにとっても,その他のWeb上のサービスの提供者にとっても有益であろう5)。すでに,米国議会図書館や国立国会図書館が件名標目表をLODとして公開している6)など,図書館のリソースを図書館だけでなくWeb全体で利用しやすい情報として提供している。The British Library(大英図書館)では,典拠だけでなくすべての書誌データをLODとして提供している7)。
例えば,総合目録のうち,雑誌「情報管理」の書誌データは次のURI注12)で表される。
http://library.affrc.go.jp/api/ZZ20005620.dcndl
拡張子.dcndlでDC-NDL形式でのデータ取得を指定している。拡張子がなければHTMLが表示される。
これまでは,RSSを経由してロボットがこのリンクを収集し,Googleでヒットするに過ぎなかった。これからは,この書誌データにリンクし情報を読み出すことで,誰かがこの書誌情報を利用することができる。あるいは書誌データに張られたリンク先をたどり,異なる情報が利用できる。このURIで表される情報の価値は,相互にリンクされることで向上するだろう。
公共データ基盤としての図書館を考えたとき,既存のOPACによる情報検索の枠を超えたサービスとしての「OPAC2.0」はその要素技術を確立し,ようやくスタート地点に立ったと言える。引き続き,データの公開と連携を通じ,利用者に価値のある新たな図書館サービスの展開を図ってゆきたい。