本年最後を飾る特集は「つながるデータ」です。
データをWeb APIなどの技術的基盤によって公開するケースが増えています。提供されるデータそのものも権利的に再利用可能なオープンデータとして公開される事例も多くなってきています。その上で,従来のデータを整理・名寄せする,識別子を活用するなど方法論は様々ですが,各種データがつながるようにする取り組みが進められ,公開され始めたデータをつなげる試みによって新たなサービスや価値が生み出されるということが起きています。本特集号では,このように各種データがつながり始めた現在の状況を複数の観点から特集いたしました。
巻頭座談会「つながるデータ」と題して武田英明氏と永崎研宣氏による対談を本特集の総論の位置付けで依頼し記事として掲載いたしました。つながるデータの筆頭格ともいえるLinked Open Data(以降は「LOD」と表記)の話題を皮切りに,IIIFをはじめとしたデジタルアーカイブ,識別子,話題は組織論にまで広がり,つながるデータのいまとこれからを存分に語っていただきました。
神崎正英氏には,Linked Data(以降は「LD」と表記)の中でもコアとなる概念であるURIを中心に技術的な側面について解説いただきました。具体的には,セマンティックウェブからLDへ至る流れや,LDの4原則,URIの設計,IIIFを題材としたJSON-LDなどについて解説いただきました。
丸川雄三氏には,文化遺産オンラインと参加館のサービスをつなぐ仕組みについて解説いただきました。参加館側で文化遺産オンラインに登録した所蔵データを利用して情報発信できるようなWeb APIによる仕組み,それから文化遺産オンライン側でも参加館の情報を所蔵データとともに詳細に掲載し参加館のHPを通じた情報発信を代替できる仕組みについて解説いただきました。
古崎晃司氏には,LOD関西という活動を中心として参加者同士がつながることによって生み出される技術,サービス,アイディアによって新しいものが生み出されている活動について解説いただきました。LODは技術的な面だけではなくこうした活動を推進力にLODの可能性が広がっていっている様子が本稿を通じて浮かび上がってくるでしょう。
本特集号が,みなさまにとって様々なデータをつなげ,新しいサービスを生み出すきっかけとなれば幸いです。
(会誌編集担当委員:長屋俊(主査),古橋英枝,水野翔彦,南山泰之)
リンクするデータ(Linked Data)は,リソースの識別に用いられるURIをリンクとしても機能させ,データの連鎖を生むことで「データのウェブ」を構成しようという考えである。URI設計に作法が求められることもあるが,重要な点はアクセスしたらデータが取得できるようにするところにある。これを優先することで,語彙についてはデータ取得後に確認できるというRDFの利点を生かし,より柔軟なデータ提供と再利用が可能になる。JSON-LDのような緩やかな記述は,特定アプリケーション用のデータを無理なく外部からも利用できるようにし,分野を超えた新たな応用の可能性を開く。
文化遺産オンラインは作品情報を管理するための情報登録環境を備えている。当初はポータルサイトを支えるためのバックエンドであったが,その後の開発によって文化財情報クラウドとしての機能強化がはかられている。本稿では文化遺産オンラインの情報登録サービスとウェブサービスAPIについて説明し,これらの機能を活用することによって参加館独自の情報発信がさらにひろがる可能性を示す。文化遺産オンラインを経由することで利用者が参加館の所蔵品を目にする機会が増え,文化財がもつ多様な価値がより広範に活かされることが期待できる。
LOD(Linked Open Data)はWeb上のオープンデータを相互に“つなげる”仕組みとして広く普及し,多くのLODが公開されている。LODの普及には様々なコミュニティ活動が関わっており,国内ではデータを公開する研究分野ごとのコミュニティに加え,分野によらないLOD技術普及のための活動も行われている。本解説ではその一例として,筆者が携わってきたLODハッカソン関西を中心として,コミュニティ活動を通して生まれたLODの活用事例を,アイデア・データ・技術の“つながり”という観点から紹介する。
Dr. Eugene Garfieldの執筆論文について計量書誌学的分析を行った。Web of Science Core Collectionから検索された1,543件の記事のうち,97件の原著論文(“article”に分類)について,以下の分析を行った:(1)単著/共著の割合,及び主な共著者,(2)参考文献がよく発表された雑誌及びよく参照された論文,(3)Garfieldの論文をよく引用した著者と雑誌。
本稿では,テキストマイニングを用いて自然言語文から未知の知見を見つける際の強みと弱みについて述べる。医中誌Webで,「情報」「科学」「技術」をキーワードとして検索した論文表題の分析例を参照しながら,強みと弱みを考察する。強みとして,人手では扱えないような膨大な量のデータに対して,数値を分析対象とする量的分析(多変量解析)と文字を分析対象とする質的分析(形態素解析)の両方を行うことが出来る。一方,弱みとして数値化されたデータでは表現できない現象の世界を分析する場合,暗黙知を抽出して形式知に置換する過程に課題が残る。