2017 年 59 巻 12 号 p. 839-848
近年,大規模書誌情報データベースを対象とした科学計量学の研究が盛んに行われている。そのため,論文や特許,研究データの分類やクラスタリング,検索のため科学技術に関するシソーラスの重要性が増している。科学技術振興機構(JST)では,1975年からJST科学技術用語シソーラス,また2005年からは関連する大規模用語辞書の構築・改訂を進めてきたが,今回,合わせて約24.5万概念を含む両者を国際標準化団体W3Cが規定するResource Description Framework形式のLinked Dataに変換し,期間限定で公開した。本稿では,まずJSTシソーラスおよび大規模辞書の概要,およびLinked Data版の特徴や有用性について述べる。そして,さまざまなドメインオントロジーをつなぐハブとなるトップレベルオントロジーとしての位置付けについて考察し,オントロジー的観点から概念間の関係性の再整備を進めているライフサイエンスカテゴリーにおける取り組みを紹介する。最後に今後の取り組みとして自然言語処理技術による半自動的なシソーラス保守・整備作業の可能性について触れる。
科学技術振興機構(JST)情報分析室では,第5期科学技術基本計画1)におけるエビデンス(客観的根拠)に基づく研究技術イノベーション推進に向けて,信頼性のある質の高い科学技術情報を,利用しやすいライセンスと機械判別可能なデータ形式で流通させるべく活動している。その一環として,2015年6月には,これまで蓄積・管理してきた研究者情報,文献情報,特許情報,科学技術用語,化学物質や遺伝子に関する情報等に関する研究データセットを一元的に検索・提供するサービスであるJ-GLOBAL knowledge(以下,JGk)を構築した2),3)。これら科学技術情報は,以前から科学技術総合リンクセンターJ-GLOBAL(http://jglobal.jst.go.jp)においてWebブラウザおよび専用APIを介して提供されてきたが,データ分析等に容易に活用できるようにLinked Dataに変換し,検索APIと合わせて公開したものである。Linked Dataとは,セマンティックWeb技術に基づいて国際標準化団体W3C(World Wide Web Consortium)が規定したResource Description Framework(RDF)形式(https://www.w3.org/RDF)を用いて,個々のデータを意味的に関連付けた(リンクした)ものであり,Web上に大規模で分散的なグラフDBを構築する技術である。現在,JGkには国内研究者総覧researchmap(http://researchmap.jp)をリソースとした約24万人の研究者情報と33万余の研究機関情報が登録されている。また,文献情報としては1958年以降のJSTが収集した国内外の論文(一部,Elsevier,Clarivate Analytics等,他社データベースから日本人著者の論文を補充)が収録されている。
本稿の主題であるJST科学技術用語シソーラス(以下,JSTシソーラス),および関連する大規模用語辞書は,これら文献情報に対する索引語から頻度の高い語を抽出して階層化したものであり,それぞれ1975年,2005年から整備されている。なお,大規模用語辞書とはシソーラス内の用語を優先語にもつ,同義語やひらがな・カタカナといった異表記語,およびシソーラス内の用語を上位(広義)語(Broader Term,以下BT)にもつ用語の集まりである。下位(狭義)語(Narrower Term,以下NT)や関連(連合)語(Related Term,以下RT)はもたない。JGkでは両者を一体的にLinked Data化している。2016年12月現在,14のカテゴリー,208のサブカテゴリーから成り,土木工学からコンピューター科学,バイオサイエンスまで約24.5万概念を収録している。カテゴリーごとの概念数を表1に示す(ただし,同一概念が複数のカテゴリーに属する場合もある)。各概念には固有のURIが与えられ,W3Cが定義した概念体系の構造を表現するためのモデルSimple Knowledge Organization System(SKOS: https://www.w3.org/2004/02/skos)に基づいて,概念間のBT/NT関係skos:broader/skos:narrowerやRT関係skos:relatedなどが定義されている。なお,BT/NT関係は包摂関係is-aを基本とするが,一部,地理的位置関係,体組織・器官,学問分野に関して部分全体関係part-ofも含んでいる。また,同じくW3Cが規定するRDFに対する検索言語SPARQL(https://www.w3.org/TR/rdf-sparql-query)を用いて,必要なデータを検索することができる。さらに,キーワード検索・可視化ツールとしてJSTシソーラスmap(http://thesaurus-map.jst.go.jp/jisho/fullIF/index.html)も提供されている4)。なお,Linked Data化される以前のJSTシソーラスおよび大規模用語辞書に関する詳細は,参考文献5)を参照してほしい。
近年,複雑で多岐にわたる科学技術・学術活動の状況把握や科学技術政策の立案を目的に,大規模書誌情報データベースを対象とした科学計量学の研究が盛んに行われているが,それらの研究において論文や特許,研究データの分類やクラスタリング,検索のため科学技術に関するシソーラスの重要性が増している。著者らの知る限り,Google SchlolarやMicrosoft Academic Searchではシソーラスを用いず,キーワード検索にフォーカスしているが,以下のような問題点が指摘されている。
概念間の関係が整備された科学技術用語シソーラスを活用することで,上記の問題の解決を図ることが可能となるだろう。特に今回,Linked Data化されたことでデータ分析プログラム等から機械的にアクセスし,階層構造をトレースしたり,概念間の関係性を測ることができるようになっただけでなく,Wikipedia情報をLinked Data化したDBpedia Japanese(http://ja.dbpedia.org)など,他のデータセットともリンクすることで,Web上のLinked Dataセットを横断的に検索できるようになった。
以下,2章では本Linked Data版の特徴と有用性について述べる。また,3章ではドメインオントロジー(特定ドメイン内の概念と概念間の関係の集合)としてみた場合の位置付けについて考察し,4章では最大カテゴリーであるライフサイエンス分野において先行して進めている,概念間の関係性の整備作業について紹介する。最後に5章で,今後の取り組みとして自然言語処理技術による半自動的なシソーラス保守・整備作業の可能性について触れる。
カテゴリー | 概念数 |
---|---|
土建分野 | 7,679 |
管理・システム技術分野 | 8,950 |
基礎化学分野 | 62,265 |
工業化学分野 | 5,890 |
電気分野 | 15,547 |
金属分野 | 3,607 |
鉱山分野 | 877 |
地球の科学分野 | 5,044 |
共通分野 | 17,153 |
環境公害分野 | 1,766 |
ライフサイエンス分野 | 89,617 |
機械分野 | 10,152 |
原子力分野 | 1,469 |
物理分野 | 19,286 |
カテゴリーなし | 26,877 |
JSTシソーラスおよび大規模用語辞書をLinked Data化するにあたっては,Tim Berners-Leeによって定義された以下のLinked Data4原則に従った。
Linked Data化にあたってはSKOSを基に独自にスキーマを設計している。図1に全体概要を,表2に主なデータ項目と対応するプロパティーについて示す。
JGkにおける基本的な考え方として,データの識別しやすさを念頭に置いたフラットな構造にしており,たとえば,各用語のカテゴリー分けは一つの用語につき,第1,第2と合致順に最大第6まで割り当てられているが,jst:subject-category-1のようにそれぞれ別のプロパティーで記述している。文献データにおける著者順の表記と同様にRDFリストによる併記も考えられるが,現状,併記していない。また,大規模用語辞書には別名を含む同義語の情報について大量の情報が整備されている。そこで,SKOSのラベルに関する拡張であるW3C Simple Knowledge Organization System eXtension for Labels(SKOSXL: https://www.w3.org/TR/skos-reference/skos-xl.html)のプロパティーを利用してこれらの情報を記述した。優先語(ディスクリプタ:ある概念において代表名としている項目)にはskosxl:prefLabelを用い(rdfs:labelでも並記),非優先語(非ディスクリプタ:代表名以外の名称)にはskosxl:altLabelを用いている。また,優先語,非優先語のそれぞれに日本語と英語による対訳の形で名称が整備されているため,ブランクノード(意味を持たない無名のノード)を挟んで,日本語ラベルはskosxl:literalForm,英語ラベルはndl:transcriptionのプロパティーを用いることで対訳の状態をRDF上でも再現している。
外部リンクについては,現在のところ3種類のデータセットへのリンクを作成している。一つは米国国立医学図書館(United States National Library of Medicine: NLM)が作成・公開しているシソーラスである医学件名標目表(Medical Subject Headings, MeSH: https://www.nlm.nih.gov/mesh/)である。JSTシソーラスには作成時にMeSHを参照して追加している語が存在するため,この対応関係を基にMeSH優先語へのリンクを作成した。また,すでにSPARQLエンドポイント(SPARQLを用いてデータ検索をする際のアクセス先)が公開され,国内の多くのデータセットからリンクされている国立国会図書館(NDL)典拠データ(http://id.ndl.go.jp/auth/ndla),およびDBpedia Japaneseのそれぞれについて,優先語を対象に文字列マッチングを行いリンクを作成した。ただし,単純な文字列マッチング処理であるため,同形異義語等による間違いが含まれている可能性がある。NDL典拠データは件名に,DBpedia Japaneseはリソース(Wikipediaにおけるページに相当する)に対してリンクされている。2016年11月時点でMeSHへのリンクが存在する用語は1万5,945件,NDL典拠データでは,7,136件,DBpedia Japaneseでは3万4,095件である。
項目 | プロパティー |
---|---|
日本語名称(優先語) | skosxl:prefLabel / skosxl:literalForm |
英語名称(優先語) | skosxl:prefLabel / ndl:transcription |
日本語名称異表記(非優先語) | skosxl:altLabel / skosxl:literalForm |
英語名称異表記(非優先語) | skosxl:altLabel / ndl:transcription |
識別子 | schema:category |
第1主題カテゴリーコード | jst:subject-category-1 |
第2主題カテゴリーコード | jst:subject-category-2 |
: | : |
第6主題カテゴリーコード | jst:subject-category-6 |
同義語 | skos:exactMatch |
RT | skos:related |
BT | skos:broader |
NT | skos:narrower |
前述のようにJSTシソーラスおよび大規模用語辞書には多くの専門用語が他の専門用語との関係とともに定義されている。関係の種類がBT/NT関係およびRT関係のみに限定されているため,オントロジー的な観点からは概念の意味(セマンティクス)を明確に表すには不十分ではある。しかし多くの用語がカバーされていることから,専門分野のドメインオントロジー構築を行う際には有用な初期リソースとしての活用が期待できる。そこで本章では,ドメインオントロジー構築のための初期リソースとしての観点からみたJSTシソーラスについて考察する。
3.1 既存のドメインオントロジーとの比較JSTシソーラスに含まれる専門用語が,ドメインオントロジーに必要とされる概念をどの程度カバーしているかを調べるために,既存のドメインオントロジーで定義されている概念との比較を行った。対象としたドメインオントロジーは,以下の3つである。
本オントロジーにおいて定義する概念の選択の基にした専門書『昆虫ミメティックス』の索引語を対象とした。
試作版のオントロジーに含まれる全概念を対象とした。
本オントロジーで定義された疾患(疾患名)を対象とした。
比較は,各オントロジーから抽出した対象概念のラベルと一致する用語がJSTシソーラスに含まれる数を,文字列の完全一致によって調べることで行った。
その際,他の類似するリソースとの特徴を比較するために,同様の調査を,Life Science Dictrionary(LSD, http://lsd.dbcls.jp/portal/),日本語WordNet(http://compling.hss.ntu.edu.sg/wnja/),およびDBpedia Japaneseに対しても行った。
表3にそれらの結果を示す注1)。JSTシソーラスはいずれのドメインオントロジーから抽出した用語についても50%以上をカバーしている。他のリソースは,LSDは専門性の高い生物規範工学と疾患の用語,DBpedia Japaneseは一般性の高い情報リテラシーの用語のカバー率が高いという結果であるのに対し,JSTシソーラスはそれら3つのすべてに対して他のリソースと同等かそれ以上のカバー率を持つ点が特徴的である。この点から,JSTシソーラスは,各専門分野においてドメインオントロジーを構築する際の初期リソースとして優れていると思われる。
生物規範工学 | 情報リテラシー | 疾患 | |||||
対象とした用語総数 | 656 | - | 707 | - | 1593 | - | |
各用語がリソースに含まれる数および割合 | JSTシソーラス | 385 | 58.7% | 418 | 59.1% | 828 | 52.0% |
LSD | 286 | 43.6% | 159 | 22.5% | 800 | 50.2% | |
WordNet日本語版 | 218 | 33.2% | 220 | 31.1% | 99 | 6.2% | |
DBpedia Japanese | 365 | 55.6% | 473 | 66.9% | 489 | 30.7% |
JSTシソーラスをドメインオントロジー構築の初期リソースとして利用した例として,生物規範工学オントロジーの構築に用いた事例を紹介する。
生物規範工学オントロジーは,オントロジー強化型シソーラス9)という考え方の下,生物学と工学という異なるドメインの知識を融合し,新規技術開発のために利用者の発想を支援する情報検索を目指して構築を進めている。対象領域が広いため,手動によるオントロジー構築に加えて,Linked Open Data (LOD)を用いてオントロジーを大規模化する技術を開発している10)。
LODを用いたオントロジーの大規模化においては,オントロジーに追加する概念および概念間の関係の候補を選定したのち,(1)それらの概念のBTの同定,および,(2)概念間の関係の種類の同定を行う。なお,同定するBTは生物規範工学オントロジーで定義された8つのトップレベル概念(ゴール,生物,振る舞い,構造,性質,物質,部位,その他),同定する関係の種類は同オントロジーで定義された10種類の関係(関連構造,関連振る舞い,関連性質,根拠となる構造,使用部位,特徴的構造,特徴的振る舞い,部位,部分構造,部分振る舞い)である。
表4および表5に生物規範工学オントロジーの大規模化を試行した結果を示す11)。この試行においては,生物規範工学の専門文書を対象とした用語の共起関係を基にした手法と,DBpedia JapaneseおよびJSTシソーラスの2種類のLinked Dataを利用した手法の比較を行った。再現率および適合率を求める際の正解データは,大規模化の結果からランダムサンプリングしたものを対象にオントロジーの専門家3名で作成した。なお関係の種類の同定については,正解データセットの事前準備が難しいため適合率のみを計算している。
これらの結果から,(1)BTの同定,(2)関係の種類の同定のいずれにおいてもJSTシソーラスを用いた手法が最もよい結果を示している。これは,他の手法においては概念間の包摂関係(is-a)に関する情報が十分に整備されていないことに対し,JSTシソーラスでは人手によってメンテナンスされた質の高いBT/NT関係が整備されていることが大きく起因しているものと思われる。ただしJSTシソーラスを用いた手法では,BTや関係の種類が同定された数が少ない。これは,JSTシソーラスを用いた手法では追加候補とする概念や関係をRT関係を用いて決定しているため,より広い関係を用いている他の手法よりも該当数が少なくなったものと思われる。
今後,これらの手法を改良することで,追加できる概念・関係の数の多さと,同定の精度を両立した手法の開発が期待される。
BT同定の対象となる概念数 | サンプリング数 | 適合率 | 再現率 | ||
専門文書内の用語の共起関係を用いた手法 | 14,272語 | 500語 | 18.30% | 18.80% | |
LODを用いた手法 | DBpedia Japanese | 1,362語 | 500語 | 56.30% | 32.80% |
JSTシソーラス | 203語 | 203語 | 82.80% | 37.90% |
関係の種類が同定された関係の数 | サンプリング数 | 適合率 | ||
専門文書内の用語の共起関係を用いた手法 | 23,481組 | 200組 | 8.00% | |
LODを用いた手法 | DBpedia Japanese | 1,224組 | 200組 | 37.00% |
JSTシソーラス | 73組 | 73組 | 56.20% |
JSTシソーラスおよび大規模用語辞書は,ライフサイエンス分野の概念約9万語(同義語,異表記語除く。JSTシソーラスに約1万語,大規模用語辞書に約8万語)を収録し,その範囲はさまざまなカテゴリー,レベルの概念に及んでいる。各概念はBT/NT関係およびRT関係を用いて構造化され,たとえば,生理学的現象である“血小板凝集”は,そのBT関係の概念として“細胞凝集”を持つ一方,RT関係の概念として同じ生理学的現象である“血液凝固”の他,分子機能の“凝固促進活性”,疾患の“血栓塞栓(そくせん)症”,遺伝子産物の“CLEC2”をもつ。このようにさまざまなカテゴリー,レベルの概念を関係付けるRT関係はキュレーターによって人手で付けられており,文献に出現する概念の共起に基づいて機械的に付けられたものに比べて,信頼性が高いと思われる。
ライフサイエンス分野におけるJSTシソーラスの概念の体系化の特徴を示すために,前述のMeSH12)が,血小板凝集(Platelet aggregation)および血栓塞栓症(Thromboembolism)の各概念をどのように整理しているか比較してみる。MeSHではBT関係に相当するbroaderDescriptorを用いて,JSTシソーラスと同様に血小板凝集および血栓塞栓症をそれぞれ生理学的現象,疾患のNTとして整理する一方で,血小板凝集と血栓塞栓症に直接的な関係付けを行っていない。世界最大規模の医療用語集(Systematized Nomenclature of Medicine-Clinical Terms; SNOMED-CT)13),14)においても同様な整理の仕方をしており,異なるカテゴリー,レベルの概念を対象にする広範囲に及ぶ関係付けはJSTシソーラスを除き他のシソーラスやオントロジーではほとんどみられず,JSTシソーラスの特徴といえる。
他方,現状のJSTシソーラスでは概念間の関係がBT,NT,RTならびに異表記を含む同義などしかないため,概念間の単純な関係しか記述することができないという問題がある。たとえば,以下のような厳密な関係を記述することは不可能である。
そこで,バイオサイエンスデータベースセンター(NBDC: National Bioscience Database Center)では,上記の課題を解決するために,JSTシソーラスのライフサイエンス分野の概念を中心にそのRT関係の細分類化と既存のオントロジーを用いた関係の標準化を進めている。RT関係の細分類化はライフサイエンス研究者が行い,これまでに2,000以上のRT関係を対象に,その半分以上の1,141関係を,より具体的な30種類の関係(たとえば,機能発揮主体-機能関係や,先行-後続関係など)に細分類化することに成功している。さらに元のRT関係を加えたこれら31種類の関係に対して,標準的なオントロジーであるSemanticscience Integrated Ontology (SIO)15)やSKOSの用語を割り当て(たとえば,sio:sio_000225 (has_function)16)など),これらデータの相互運用性,操作性,認知性を向上させた17)。
こうした関係の細分類化によって,機能発揮主体-機能関係,BT関係(skos:broader)18)および全体-部分関係(sio:sio_000028 (has_part))19)などを使った機能やロールの継承による推論が可能になった。たとえば,Pタンパク質の機能として,そのBTにあたるABCトランスポーターが持つ機能“生物学的輸送”が推論され,またRNA-タンパク質複合体であるスプライセオソームの機能として,その全体-部分関係にあるスプライシング因子が持つ機能“RNAスプライシング”が推論されるなど,細分類化した関係を用いることよって,これまでに約1,500個の概念に対して100種類以上の機能やロールの推論が可能になった17)。
さらに,関係を細分類化したシソーラスをRDFに変換,RDFストアに格納,SPARQL検索の実行環境を整備し,血栓塞栓症に先行(precedes)して起こる生命現象に作用(has_function)する遺伝子産物を発見するSPARQL検索文を作成,検索を実行することで,関係を細分類化することの有効性の評価を行った。図2は血栓塞栓症とその周辺の概念の関係を表している。
検索の結果,血栓塞栓症に先行して起こる血小板凝集に作用することで血栓塞栓症に関係することが示唆される遺伝子産物,すなわち血栓塞栓症まで2段階でつながるCLEC2を発見する一方で,同じく血栓塞栓症に2段階でつながるが,RT関係のみを経由してつながり,血栓塞栓症の発症に関与する根拠が認められないPRKCH遺伝子を除外する検索結果が得られることを確認した17)。これは,関係の細分類化によって概念間の関係の厳密な記述が可能になり,精度の高い検索結果が得られることを意味している。
血栓塞栓症と血小板凝集およびCLEC2間の関係の他,概念間の関係の細分類化によって,厳密な関係の記述が可能になった例を以下に挙げる。
さまざまな異なるカテゴリー,レベルの概念間の関係の記述を許しているJSTシソーラスは,他のシソーラス,オントロジー,Linked Dataなどと親和性が高く,またそれらをマッシュアップする際にハブとして機能すると考えられる。(疾患を除く)生物学的プロセス,分子機能,細胞構成要素とそれに関係する遺伝子産物のオントロジーであるGene Ontology20)のデータを,関係を細分類化したRDFに取り込むことで,Gene Ontologyの遺伝子産物の情報がJSTシソーラスの持つ疾患や化学物質などさまざまな情報とつながり,それぞれを単独で使用した場合と比較してより高度で効率的な情報検索が可能になると考えられる。さらに実験データの解釈などにも活用されることが期待できる。
近年,科学技術用語シソーラスの重要性はさらに増しているが,バイオ系や工学系,特にコンピューター科学分野は進展が早く,さまざまな概念や用語が次々と生まれるため,シソーラスの人手での構築,保守には限界がある。2012版のACM Computing Classification System(ACM: Association for Computing Machinery)は作成に14年の歳月を要したと聞く。JSTにおいても当初は数年単位で新語(一定の頻度で索引されている未登録語)の追加を行ってきたが,近年は1年単位でそれらを繰り返しており,コスト面での問題が指摘されている。そこで昨今,シソーラスを(半)自動的に構築,拡充する研究が盛んに行われている。代表的な研究の一つに,Linked Data等セマンティックWeb技術に関するトップカンファレンスであるInternational Semantic Web Conference 2015 (ISWC 2015)で発表されたMottaらのKlink-2が挙げられる21)。しかし,Klink-2ではDBpediaやWikipedia,Elsevier社のScopusなど事前に人手によって整備されたデータベースからさまざまな関係(プロパティー)を取得している。
そこで現在,JSTでは事前に人手によって整備された情報が少ない新興・先端学術分野においてもシソーラスを半自動的に拡充できるよう,自然文を入力とする手法を開発している22)。一定期間の文献抄録群から出現回数や頻度に基づいて新語候補を抽出し,同時に単語の分散表現(単語を数百次元の実数値ベクトルとして表現したもの。単語ベクトルとも呼ばれる)に基づいて,新語候補と一定の関係を持つ既存語,およびその関係性を抽出している。単語ベクトルは「単語の意味はそれが出現する文脈によって決まる」という考え方23)に基づいており,文中で似たような出現の仕方をする単語は近い意味を持つことを前提としている。最終的には,一新語候補に対して複数の候補(既存語とその関係)を作業者に提示し,目視確認のうえ,大規模用語辞書に追加するシステムの構築を進めている。
2016年12月現在,国内最大のLinked Dataを用いた活用コンテストLinked Open DataチャレンジJapan 2016(http://2016.lodc.jp/)に合わせて,JST文献情報と資料情報の一部,および本稿で紹介したJSTシソーラスおよび大規模用語辞書のLinked Data版をJGkサイトで一般公開している。科学技術振興の目的において,その他のデータを活用されたい方はJSTに対してデータ貸借契約や共同研究契約等の申請を出していただきたい。契約形態,契約内容は個別の案件によって異なるため,まずは著者らに問い合わせていただきたい。現在,主に文献や科学技術用語に関するデータが国内8研究機関に提供され,活用または活用が検討されている。なお,JGkサイトはβ版であり,改変,メンテナンス,停止等がありうることをご承知願いたい。今後は利用者の声を聞きつつ,改良に努めていきたい。
科学技術振興機構 情報分析室 主任調査員。電気通信大学 客員准教授。博士(工学)。人工知能学会理事,同学会セマンティックWebとオントロジー研究会主査,セマンティックWebに関する国際会議ISWC組織委員等を歴任。主として自然言語処理,機械学習を用いたナレッジグラフの構築・活用技術の研究・開発に従事。
科学技術振興機構 情報分析室 主査。主としてJ-GLOBAL knowledge等の情報基盤の構築と調査・分析業務に従事。
科学技術振興機構 情報企画部 調査役。主としてJ-GLOBAL,J-GLOBAL knowledge等の情報基盤の構築と運営,文献データベース整備の高度化(機械翻訳,自動索引等)に関する業務に従事。
科学技術振興機構 バイオサイエンスデータベースセンター 研究員。博士(学術)。主としてライフサイエンスデータベースの整備,統合に従事。日本化学物質辞書RDFの国際標準化,JST科学技術用語シソーラスのオントロジー化を担当。
大阪大学産業科学研究所 准教授。博士(工学)。人工知能学会セマンティックWebとオントロジー研究会主査。Linked Open DataチャレンジJapan実行委員会副実行委員長。主としてオントロジー工学の基礎理論および構築ツール,セマンティックWeb,Linked Data,およびそれらの各領域における応用に関する研究に従事。