情報管理
記事
DBpediaの現在:リンクトデータ・プロジェクト
加藤 文彦
著者情報
ジャーナル フリー HTML

60 巻 (2017) 5 号 p. 307-315

詳細
PDFをダウンロード (2737K) 発行機関連絡先
著者抄録

DBpediaは主にWikipediaから構造化データセットを抽出してリンクトデータとして再公開するコミュニティープロジェクトである。まず,DBpediaやDBpedia日本語版の成り立ちについて解説する。その後にデータモデルやデータ抽出といったDBpediaの技術的側面について述べる。現在日本語版のトリプル数は1.1億程度である。また,Wikipedia内でのテンプレート出現数に対するマッピングのカバー率は49.1%である。日本語版の利用調査を2015~2016年にかけて行った結果,日本語版にリンクするデータセットが18件,日本語版のアプリケーションが26件,研究利用が65件あることがわかった。また,DBpediaとウィキデータの関係も述べる。

1. はじめに

ちょうど10年前の2007年は,セマンティックWeb分野において大きなターニングポイントとなった年であった。ベルリン自由大学とライプチヒ大学の研究グループおよびOpenLink Softwareの協力により,DBpediaの初版1)が公開されたのである。

当時は,データ表現やオントロジー記述といったセマンティックWebにおける基礎技術の仕様が,Webの標準化団体であるWorld Wide Web Consortium(W3C)によってすでに確立されていた。その応用としては,各組織の中でトップダウンで設計したオントロジーを,多種多様なデータベース統合に活用するというのが主流であった2)。それらも重要な成果ではあるが,理念先行で利用可能なデータが実際にはWeb上にあまり流通していないのが大きな課題であった。Webページ内への埋め込みや,ソーシャルWebでの応用など,この課題に取り組む活動はあったが,DBpediaはそこに一石を投じたのである。

DBpediaはそれ自体がデータセットとして有用だったことと,オープンなデータをリンクしていく草の根活動の中心となったため,広く活用されるようになった。本稿では,DBpediaやその日本語版についての解説をする。

2. DBpediaプロジェクト

2.1 DBpediaとは

Wikipediaはインターネットのコミュニティーが編集して作っているフリーの百科事典であり,ウィキメディア財団が運営をしている。DBpediaは,Wikipediaから構造化データセットを抽出することで,セマンティックWeb技術によるフリーの知識ベースを構築している。Wikipediaは,著作権者等の表示と同じライセンスの適用をすれば,自由に複製・改変・再配布等ができる。そのため,DBpediaのようにWikipediaから構築したデータも問題なく活用できるようになっている注1)

DBpediaがWikipediaから抽出する構造化データは,Wikipediaの各記事についての事実や説明,記事間の関係等である。これらはグラフとして表現するのが適切なため,構造化データの表現にはセマンティックWebにおけるデータ記述のためのグラフモデルであるRDF(Resource Description Framework)3)を用いている。また,構造化するための語彙として,DBpediaオントロジーも開発している。

DBpediaが先進的だったのは,単にRDFで表現した構造化データをWeb上で公開したということだけではなく,当時W3C等で議論されていた,WebでRDFデータを公開共有するときのよりよい設計や公開の手法であるリンクトデータ(Linked Data)4)とSPARQL5)を適用したことにある。以降,DBpediaを参照実装として,同様の形でWeb上に公開されるデータセットが増えていくことになる。

DBpediaが公開された2週間後,W3CのSemantic Web Education and Outreach(SWEO)Interest Groupにて,Linking Open Data on the Semantic Webというコミュニティープロジェクトが立ち上げられた。このプロジェクトの目的は,草の根のコミュニティー活動としてWeb上に公開されているオープンなデータセットをつないでいくことであった。その成果の可視化がLODクラウド図であり,最初の版は2007年5月に公開された6)。DBpediaは現在もこの図において文字通り中心にあり,さまざまなデータセットのハブとして機能している。DBpediaは百科事典由来のデータセットであるためさまざまなトピックを含んでおり,各種データセットからリンクしやすいからである。

2.2 国際化と地域化

DBpediaが作成した当初のデータセットは,英語版Wikipediaを中心としていた。しかしWikipediaでは,英語版に記事がなく,特定の言語にのみ記事があるというのがよくある。よって,現在は各国語版Wikipediaからデータ抽出を行っており,2016-04版では127言語分のデータセットダンプを公開している7)

それにもかかわらず,DBpediaのWebサイトにおいてリンクトデータおよびSPARQLエンドポイントとして公開提供しているのは,英語版Wikipediaを基にして作られているデータセットである。英語以外の言語については,有志が各言語版のリンクトデータおよびSPARQLエンドポイントをホストしており,これを言語チャプターと呼んでいる。DBpedia日本語版(DBpedia Japanese)は,筆者らが立ち上げて運営をしている。

2.3 DBpedia日本語版

DBpedia日本語版を最初に公開したのは2012年5月である。主な目的は日本語のリンクトデータのハブになるリソースを提供することで,研究開発を促進するためである。日本語のデータセットとしては,2010年に国立国会図書館が件名標目表を公開したのが初めてである。2011年からはLODチャレンジJapanが開催されることで,少しずつ理解が広まっていたが,課題は日本語のリンク先が増えないことであった。その解決のためにはDBpedia日本語版が必要だと考えたのである。DBpedia日本語版は情報・システム研究機構における研究プロジェクトの一環として始めたが,2016年4月からは特定非営利活動法人リンクト・オープン・データ・イニシアティブが運営している。

トリプル数は2016年4月時点で1.1億トリプルほどである。2012年5月の公開当初は0.7億ほどであり,4年で57%ほど増加している。これは日本語Wikipedia自体の成長と後述のマッピングの成果である。英語版は2016年4月時点で11.3億程度なので,ちょうど10分の1の規模となっている。

他の日本語のデータセットがどのようにリンクしているかを把握するために,LODクラウド図のように,不定期で日本語のラベルを含んでいるリンクトデータやRDFデータセットのリンク関係を調査している。その関係を図示したのが日本語リンクトデータ・クラウド図である(1)。2015年11月18日版で対象となっているデータセット数は29件であり,その内19件のデータセットが直接DBpedia日本語版にリンクしている。前述の国会図書館も件名標目表を拡張して典拠データ(NDL Authorities)8)を公開しており,それもハブになっている。

図1 日本語リンクトデータ・クラウド図(2015-11-18)

2.4 DBpediaアソシエーション

DBpediaにおける最近の変化は,DBpediaアソシエーション(DBpedia Association)という支援団体が2014年に立ち上がったことである。DBpediaアソシエーションはドイツのライプチヒにある非営利組織であるInstitute for Applied Informatics(InfAI)内に設立されている。動き出したのは2016年からだが,加盟団体を募ってコミュニティーの支援体制を形成しようとしている。これは,各言語チャプターにも影響を与えている。これまでは運営したい人が手を挙げるだけでよかったが,今後は運営する団体が最低1つは存在しており,それらの団体すべてがDBpediaアソシエーションに加盟する必要がある。その後に所定の手続きを行うことで,公式な言語チャプターになる。現在はオランダ語,ギリシャ語,ポーランド語が公式な言語チャプターである。日本語については,前述のリンクト・オープン・データ・イニシアティブが母体となって公式化の手続きを進めている。

3. DBpediaの仕組み

3.1 データモデルとリンクトデータ

DBpediaのデータモデルはリンクトデータに沿った形のRDFである。リンクトデータでは,データをWeb上に流通させるための4原則をまとめている。

  • 1. 事物の名前づけにURIを使う注2)
  • 2. HTTP URIを使うことでそれをWeb上で調べられるようにする
  • 3. 誰かがURIを引いたときには標準技術を使って有益な情報を提供する
  • 4. 他のURIへのリンクを含むことで,人々がより多くの事物を発見できるように支援する

Webは,文書表現としてのHTMLと,その文書を世界中から一意に識別するためのHTTP URI(httpかhttpsで始まるURI),文書を取得するためのHTTPという要素でできている。これにより,ブラウザで世界中の文書をシームレスに閲覧できる。

リンクトデータはこれを拡張して,人や施設のような実世界の物や,色や単語,物の関係といった抽象的な概念についてもWeb上で扱えるようにする。実世界の物や抽象的な概念などのことを事物(thing)と呼んでいる。

Wikipediaは百科事典なので,「歌川広重」という人物や「名所江戸百景」という作品のように,各記事が述べているのは何かしらの事物である。そのため,DBpediaでは「歌川広重」のデータ,「名所江戸百景」のデータのように,記事に対応する事物ごとに構造化データを作成する。

その際に,事物の名前づけとしてHTTP URI を用いる(原則1と2)。DBpediaの場合,「歌川広重」のHTTP URIは,「http://dbpedia.org/resource/Hiroshige」である。ブラウザでアクセスすると,データの説明が記述されているHTMLが閲覧できるが,一定の作法でアクセスすると,RDFデータも取得できる(原則2と3)。

データには,他の事物へのHTTP URIへのリンクが含まれている(原則4)。DBpediaでは2のように,「名所江戸百景」のデータから「歌川広重」のデータへリンクがある。さらに「歌川広重」からは「江戸」へのリンクがあるので順々にたどれる。DBpedia外のデータにも同じ作法でリンクすることが可能で,DBpediaでは初期の頃からGeoNames等にリンクしている。これにより外部のデータセットとシームレスにつながっていくことができる。

図2 DBpediaのデータモデル

3.2 データ抽出過程

DBpediaのデータ抽出プログラムは,DBpedia Information Extraction Framework(DIEF)というオープンソースソフトウェアである。DIEFはWikipediaのさまざまな部分からデータ抽出を行っているが,特に重要なのがインフォボックス(Infobox)である(3)。

インフォボックスとは,Wikipedia記事で右側に表示される囲みテーブルである。その実体は,関連する複数の記事で共通の項目を入力するためのWikipediaテンプレートであり,半構造的に項目名とその値を記述できる。

たとえば,日本語Wikipediaの歌川広重で使われているテンプレートは「Infobox 芸術家」である。そこには,name,birthdate,deathdate, fieldなど,芸術家に共通の項目が用意されている(4)。各芸術家の記事にテンプレートを用いることで内容を整理することができるし,Wikipedia上での見た目も統一される。DIEFでは,主にこの項目名と項目値を抽出してRDFデータにする。

インフォボックスのRDF化は,2段階で行う。RDFではプロパティーがURIなので,まず第1段階として項目名を機械的にプロパティーにする。日本語版の場合は,「ht tp://ja.dbpedia.org/property/ + 項目名」とする。たとえば項目名birthdateは「ht tp://ja.dbpedia.org/property/birthdate」となる。ホスト名にjaが入っていることからわかるとおり,各言語版で異なるプロパティーを生成する。

テンプレートの項目名は,Wikipedia内で統一されておらず,テンプレートの作者依存である。たとえば生年月日を表す項目には birthdate,birth_date,生年月日,誕生日など多数存在する。そこで第2段階として,項目名をDBpediaオントロジーに対応づけることで統一して扱えるようにする。DBpediaオントロジーでの生年月日プロパティーは「ht tp://dbpedia.org/ontology/birthDate」である。

また,DBpediaオントロジーにはクラスも用意されている。クラスはテンプレートごとに割り当てられるようになっており,たとえば「Infobox 芸術家」は「ht tp://dbpedia.org/ontology/Artist」というクラスにマッピングされている。

図3 Wikipediaのインフォボックス
図4 テンプレート「Infobox 芸術家」

3.3 マッピング作業

テンプレートからDBpediaオントロジーへのマッピングや,DBpediaオントロジー自体の編集は,マッピング用のウィキで,ボランティアによる人力で行っている9)

英語版と日本語版についてのマッピング作業状況の統計を1に示す。日本語版において,すでに対応が完了しているテンプレートは,日本語Wikipedia全体のテンプレートのうち,わずか5.52%である。これは英語版でも同様で5.92%である。しかし,記事におけるテンプレートの出現頻度でみると,日本語では49.1%,英語では80.92%もカバーしていることになる。Infobox AlbumやInfobox Filmのように,使用頻度の高いテンプレートを重点的にマッピングしているため,ごくわずかのマッピングでも記事全体のカバー率は高くなる。

表1 マッピング作業状況(2017年5月時点)
日本語 英語
対応テンプレートの割合 5.52%(106 / 1,919) 5.92%(362 / 6,115)
対応プロパティーの割合 2.93%(2,242 / 76,444) 3.11%(6,041 / 194,485)
対応テンプレートの出現頻度 49.1%(389,916 / 794,114) 80.92%(2,849,942 / 3,521,856)
対応プロパティーの出現頻度 41.57%(3,331,271 / 8,013,323) 63.75%(29,707,828 / 46,597,066)

4. DBpediaの応用

4.1 SPARQL

DBpediaおよび各言語チャプターでは,データセットへのアクセス手段として,公開SPARQLエンドポイントを提供している。SPARQLはRDF用の標準クエリ言語であり,1.1が最新版である。SPARQLによって,Wikipediaの知識に対して,複雑な問い合わせができる。公開SPARQLエンドポイントはWebAPIなので,データ利用やアプリケーション開発を促進できる。

5はDBpediaオントロジーを利用したSPARQLの例である。作家とその代表作を取得する単純なクエリとなっている。

図5 SPARQL例

4.2 アプリケーション

筆者らは,DBpedia日本語版がどのように使われているかを独自に調査している10)

DBpedia日本語版を利用したアプリケーションについて,2016年3月まで調査したところ,26件あった11)。ジャンルは地理,歴史,ゲーム,メディア,音楽,スポーツ,医療等多様である。また,QGISやWordPressといったアプリケーションのプラグインが開発されているのも特徴的である。

4.3 研究利用

DBpedia日本語版が研究活動にどれくらい利用されたかについて,公開から2016年2月まで年度単位で調査した(6)。

総数は65件であり,そのうちDBpedia日本語版の関係者を含まない件数は50件(78.1%)であった。年度を追うごとに数は増加している。具体的には,「ねじLOD」12)のようにDBpedia日本語版の関連するリソースにリンクして利用したり,藤原ら13)のように既存のデータセットの問題例として用いられるなど,さまざまな利用のされ方をしている。データセットを広く公開共有したことで研究分野の発展に一定の寄与をしたのではないかと思われる。

図6 DBpedia日本語版の研究利用件数

5. ウィキデータ

DBpediaの比較対象として最近最も注目されているのが,2012年にウィキメディア財団が新たなプロジェクトとして始めたウィキデータ(Wikidata)14)である。ウィキデータはコミュニティーの共同作業で作る,フリーの知識データベースであり,すでに執筆時点で2,615万余りの項目がある。

ウィキデータの目的の一つは,ウィキメディアのプロジェクトにおいて事実データの構造化をサポートして,再利用可能にすることである。最初のターゲットはWikipediaの言語間リンクであった。そのため,最初から多言語化前提の設計になっている。

DBpediaはWikipediaをリンクトデータにしたものであり,ウィキデータはWikipedia等に対して構造化データのサポートをするという,立ち位置が異なる。

対象データは範囲がかぶるところがあるが,目的や成り立ちが異なるために,そのデータ構造も異なっている。DBpediaは事物を主語,項目名を述語,項目値を目的語とする単純なトリプルの集合として構造化データを表現する。それに対してウィキデータは,基礎としているデータモデルは独自の概念モデルである15)。これは,事実についての由来や,日付等の説明を付与できることを重視しているからであり,直接RDFで行うには複雑となる16)

一方でリンクトデータの原則については踏襲されており,事物に対してHTTP URIが付与されている。また,HTTP URIからJSONとRDFの取得ができる。SPARQLエンドポイントも用意されている。

DBpediaとウィキデータは,どちらかというと相互補完関係にある。事物とオントロジー両方において,関係ある部分を互いにリンクしている。ウィキデータのSPARQLエンドポイントでは,特定の外部エンドポイントに対するフェデレーテッドクエリ (Federated Query)注3)が許可されており,DBpediaはその先の一つである。そのため,両方のデータセットを横断的に使える。

また最近のDBpediaプロジェクトでは,Wikipedia以外のウィキメディア財団のプロジェクトにもDBpediaと同じ手法を適用しており,ウィキデータに対してはDBpediaウィキデータを構築している17)。これからもしばらくはお互い影響を与えながら発展していくことになる。

6. おわりに

DBpediaの公開から10年,日本語版の公開からも5年たち,活用例が増えている。日本でもリンクトデータやSPARQLエンドポイントの公開が増えており,そのリンク先としてもDBpedia日本語版は使われている。興味をもった方にはぜひコミュニティー活動に協力していただきたい。

執筆者略歴

  • 加藤 文彦(かとう ふみひろ) fumi@nii.ac.jp

2004年慶應義塾大学大学院 政策・メディア研究科修士課程修了。同年,同大学大学院助手。2007年同大学大学院助教。2010年未来技術研究所。同年,情報・システム研究機構 特任研究員。2016年より国立情報学研究所 特任研究員。リンクトデータ関係の研究開発に従事。

本文の注
注1)  初版公開時,WikipediaのライセンスはGNU Free Documentation License(GFDL)だったので,DBpediaのライセンスもGFDLであった。現在は,WikipediaとDBpedia共にクリエイティブ・コモンズ 表示-継承 3.0 非移植 ライセンス(CC BY-SA 3.0)とGFDLのデュアルライセンスとなっている。

注2)  厳密には本稿のURIはすべてIRI(Internationalized Resource Identifier:国際化資源識別子)だが本稿ではURIとする。

注3)  一度に複数のSPARQLエンドポイントに問い合わせて,それらの結果を統合して取得することができるクエリ。

参考文献
 
© 2017 Japan Science and Technology Agency
feedback
Top