2016 年 59 巻 4 号 p. 209-217
日本図書館協会(JLA)と国立国会図書館(NDL)が,日本十進分類法(NDC)をLinked Data化するために,2015年4月から2016年3月まで実施した共同研究の成果を報告する。NDCは,JLAが編集発行するわが国の標準分類法である。研究では,NDCの新訂8版と新訂9版を対象とし,JLAが機械可読形式化したMRDFを基に,Linked Data形式のデジタルデータを試行的に作成した。想定利用者のニーズが情報システムでの利用にあることを踏まえて作成方針案を策定したうえで,NDCの概念的な階層関係を基にした分類項目間の階層構造モデルの構築,記述語彙の選定,ラベルの構造化,補助表による分類項目の合成,相関索引等からの分類項目の機械生成等を行った。また,Linked Dataとして外部データとのつながりを生むために,国立国会図書館件名標目表へのリンクを含めた。今後は共同研究の成果に基づき,JLAにおいて提供や利用に関する調査・検討を行う予定である。
2015年4月,日本図書館協会(JLA)と国立国会図書館(NDL)は,JLAが編集発行する「日本十進分類法(Nippon Decimal Classification: NDC)」をLinked Data(リンクト・データ)化(以下,LD化)するために,1年間の共同研究を実施すると発表した1)。この発表は反響が大きく,図書館界からだけでなく,他分野の情報専門家やエンジニアからの注目も集めた。
本稿では,この共同研究の成果を報告する。まずNDCの概要を,本研究にかかわる部分を中心に説明する。次に,LD化研究の取り組みにいたる背景を述べたうえで,本研究の進捗状況を述べる。さらに,本研究で試行作成したNDCのLinked Dataについて,記述語彙の選定といったテクニカルな面から説明し,最後に今後の展望にふれる。本稿は,共同研究に携わった者で分担執筆した。2章をJLA分類委員会の藤倉が,3章をNDL電子情報部の橋詰と福山が,4章を技術アドバイザーの神崎が,5章をJLA分類委員会の中井がそれぞれ担当した。なお,本稿の所感に係る部分は,それぞれの執筆担当者の見解であり,所属機関や共同研究を代表していないことをあらかじめお断りしておく。
NDCは1929年に第1版が刊行され,新訂8版(1978年),新訂9版(1995年),新訂10版(2014年)と改訂を重ねている。公共図書館の99%,大学図書館の92%が採用している(2008年調査),わが国の標準分類法である注1)。
2.1 十進分類法十進分類法(decimal classification)は,その名が示すように,十進式のアラビア数字を分類記号として用いる分類法である。まずは1から9までの数字に,4自然科学,9文学というように主題分野を割り振り,どこにも属さないものを0(総記:General works)として10区分する。次いで100区分では,4(自然科学)ならば41数学,42物理学……と分野を細分し,さらに1000区分では,41(数学)ならば411代数学,412数論……と,漸進的に細分して体系を表現している。1000区分以上では,3桁目にピリオドを置きさらに細分する(411.1算術,.2初等代数学,.3線型代数学,.35行列.行列式.多項式……)。
NDCの冊子は,分類表本体として
述べてきたように,十進分類法は理論的には記号の桁数が「分類の詳細度」と相関するものだが,実際はその限りではない。それらはいくつか例が存在するが,顕著な例の一つが区分肢の数による階層と桁数の不一致である。細分する際,区分肢が「9に満たないもの」「9を超えるもの」が存在する。前者への対応は容易だが記号が余り,後者は記号が足りない。これらの場合,表の上では前後の分類項目の名辞と比較し,階層関係が目視できるように分類記号と項目名の間隔を字下げ/字上げすることで調整している(図2)。
以下,分類表本体とは別に用意されている補助表,相関索引,そして電子化されたMRDF(Machine Readable Data Format)を説明する。
分類記号と分類項目名は細目表に列挙されているが,歴史,事典といった形式や地域,言語など,多くの分類に共通して適用可能な区分を「補助表」に別途用意しており,これを合成することでより詳細に表現できる。たとえば「歴史」を示す形式区分――02を用いれば,41数学は410.2数学史,411代数学は411.02代数学史のように,細目表に列挙されていない主題も記号化できる。
2.3 相関索引名辞から分類記号を検索するために「相関索引」が用意されている。これは単に名辞を字順に並べたものではなく,たとえば「ねこ」ならば,必要に応じて「ねこ(家畜)645.7 (動物学)489.53」というように限定語を付したり,「医学490」の次行に「宇宙医学498.44」「家庭医学598.3」というように合成語を付したものを置いて,観点の異なるものや関連語の検索も容易にしている。
2.4 MRDF新訂8版と新訂9版では,細目表・相関索引を機械可読形式化したMRDFが作成されている。タグにより各データ項目の種類が示されているが,あくまで冊子の細目表を再現したものである(図3)。また,相関索引は別ファイルで,読み(ヨミガナ)を付加した索引語データから構成されている。1980年代に開発されたフォーマットであり,将来的な見直しが課題とされてきた。
最近のICT関連分野において,ビッグデータやオープンデータと並び,Linked Dataが欠かすことのできない話題となっている。Linked Dataとは,他のデータとリンクできる形でWeb公開された機械可読データ,または当該データを実現させる仕組みと説明される注2)。その先に次世代のWebと呼ばれる「セマンティックWeb」注3)の理念の実現が意図され,セマンティックWebの標準的な技術,具体的には,Web空間でデータを記述する枠組みである「Resource Description Framework: RDF」やRDF用のクエリー言語である「SPARQL(スパークル)」などを用いて表現・提供される。
図書館の分野でも,近年,欧米の大規模図書館を中心にLinked Dataに取り組むところが増えている。特に,蔵書目録やデジタルアーカイブに含まれるメタデータ(目録データ)のLD化が熱心に進められている2)。その目的は,公共機関のオープンデータとして保有するデータの利活用を促進することや,セマンティックWeb時代の書誌コントロールを向上させることにあると考えられる。国際的にみれば,この流れの中で,世界各国・地域の分類法もLD化されている。たとえば,NDCと同じ十進分類法の一種である「デューイ十進分類法(DDC)」は2009年から,「国際十進分類法(UDC)」は2011年から,その一部がLinked Dataに変換され,Webで公開されている(なお2016年3月時点で,DDCのLinked Dataの公開は一時的に停止している3))。わが国においても,以前から分類法のLD化を期待する声はあったものの,これまで,管理機関が主体となる形で行われたことはなかった。
こうした背景を踏まえ,2015年度に実施したのが,NDCのLD化の共同研究である。共同研究の実施に当たっては,NDLとJLAの間で,2015年2月に「日本十進分類法のLinked Data形式化に係る共同研究に関する協力の覚書」を取り交わした。研究の実施期間は2015年4月から2016年3月までで,研究対象はNDCの新訂8版と新訂9版である。共同研究のために,JLAからMRDFが提供され,このMRDFを基に,NDCのLinked Dataのデジタルデータ(以下,NDC-LD)の試行的な作成に取り組んだ。
3.2 研究の進捗とLD化の方針研究チームのメンバーは,JLA分類委員会2名,NDL電子情報部電子情報流通課2名からなり,技術アドバイザーを日本のセマンティックWebの第一人者である神崎正英氏に依頼した。研究の作業は,月1回程度の作業会合を中心に行い,分類法のLD化の先行事例調査,NDC固有の課題の洗い出しから検討をはじめた。LD化の検討には,NDC-LDを使うであろう想定利用者のニーズの把握と反映が必要と考えたため,早い時点でNDC-LDのデータモデル案を作り,その案に対する想定利用者や専門家からの意見を検討,反映させる流れで作業を進めた。その一環で,2015年9月には,中間報告版と名付けたLinked Dataのデータの一部を限定公開し,広く一般からコメントを募集した。
研究を進めるうちに,想定利用者のニーズは,既存の目録データ等に含まれるNDCの分類項目を利用して,情報システムのナビゲーション機能の向上を図ること,つまりNDC-LDはたとえば文献データベースなどの情報システムに取り込んで使うデータとなることが期待されていることがわかった。そしてこれは,従来の冊子NDC(図書館職員が分類付与のために用いるツール)に対するニーズとは異なっていた。そこで研究チームでは,次のような内容の方針案を策定し,それに基づいて検討作業を行った。
(1) NDC-LDの目的・趣旨(一部を要約)NDC-LDは,NDCの分類項目に対応する概念にURI(Uniform Resource Identifier)を与えて参照可能とし(これを「分類リソース」と呼ぶ),おのおののURIを主語にしたRDF文(トリプル)でMRDFの情報を記述したデータセットである。新訂8版,新訂9版のRDFグラフは,それぞれ約18万,25万のRDF文で構成されている。
分類リソースのURIは,Linked Dataとしてリンクが可能で,かつプログラムを含む利用者にとって扱いやすいことが望まれる。その設計には,通常の分類記号以外に補助表や範囲分類(たとえば中間見出し注6))なども扱うかどうか,また版次による違いをどう表現するかも考慮しなければならない。先行事例では,DDCが分類記号と版次,年月,言語などを組み合わせて,UDCが分類記号とは別の管理IDを用いて,米国議会図書館分類法(LCC: Library of Congress Classification)は分類記号とMARC管理番号を併用して,それぞれURIを構築していた。
NDC-LDにおいては,分類記号からすぐにURIを構築してリソースを参照できるように,分類記号をそのままローカル名に用いた。名前空間URI注7)は末尾に版次を加えたもの(ndc8およびndc9)と版次のないもの(ndc)を用意し,使い分けを可能とした。範囲分類記号は区切り文字を「'/'」から「'_'」に変更してローカル名とし,補助表項目はURIを付与しない(LD化対象としない)こととした。
4.2 記述語彙の選定先行事例を含め,記述のための基本的なRDF語彙にはSKOS注8)が広く用いられている。NDC-LDも分類リソースにskos:Concept型を与え,項目名,注記および後述の階層関係をSKOSで記述した。
注参照で示される分類リソース間のリンクおよび後述する文脈付きラベルにはRDFスキーマ語彙注9)を用い,版次なし分類リソースとの関係をdct:isVersionOf注10)で記述した。またこれらだけでは表現できない構造を記述するため,独自の語彙もあわせて定義した。
4.3 階層構造モデルの構築NDCの階層を表現するRDFグラフには,前述の字上げ/字下げの調整,および4つの表の結合を適切に反映させなければならない。
MRDFはデータが分類記号順に並び,字上げ/字下げを示す記号も与えられるので,親分類はデータ解析段階で容易に決定できる。ただしMRDFに含まれない類目~要目の分類は,冊子の字上げ/字下げ情報を別リストとして補った。また後述の追加リソースも,別処理によって親分類を判定し,階層に組み込んだ。
ここで検討を要したのは,表内の字上げによる「表内階層」と,表と表の関係が内包する「表間階層」という二重化された階層の扱いである(図4)。前述のとおりNDCは4つの表に分かれているため,たとえば2桁分類の綱目表内で40自然科学が41数学の上位(broader)であることを示すには,40を字上げする必要がある。このため綱目表では,1の位が0であるn0型分類は常に字上げされ,それ以外の分類の上位に置かれている。これが「表内階層」である。
一方で1桁分類の類目表と綱目表の関係からは,両者の間にも階層があると考えるのが自然だ。そこで同じ「自然科学」であっても,4(類目表)と40(綱目表)の間には4←40という関係が存在することになる注11)。これが「表間階層」である。
表を別々に利用する場合はこれで支障はない。しかしすべての表をまとめて扱うNDC-LDにこれらの階層をそのまま移植すると,4自然科学と41数学は,4←40←41という関係になる。ここでは4←40の関係は冗長なのではないか。そう考えるならば,NDC-LDでは40と4を同じ位置付けとみなして,関係を4←41と単純化する方が適切なのではないか。特に要目表と細目表の関係の場合,同じ3桁の記号が両者に出現するので(たとえば400自然科学),表間階層を取り入れて400←400という関係を作るよりも,同じ記号を1つの分類リソースにまとめる方がわかりやすい。
本研究では,表間階層を維持する方法,表内階層と統合する方法,および両者を組み合わせる方法でそれぞれ階層グラフを試作し,有識者の意見も踏まえて検討した結果,次のように階層を構築した(図5)。
分類の項目名は,上位分類の情報を前提にしているものが少なくない。たとえば017.3は「中学校」だが,意味を理解するには上位の017が「学校図書館」だと知る必要がある。上位分類が同時に目に入る冊子はこれでよいが,個々のリソースを独立して扱うRDFのラベルとしては不十分である。
NDC-LDでは,正規形として項目名をそのままskos:prefLabelで記述しつつ注13),より汎用(はんよう)的なrdfs:labelに上位分類項目名を加えたラベル(文脈付きラベル)を与えることにした。017.3ならば「学校図書館―中学校」となる。ここで「文脈」を直近の上位分類の項目名とするだけでは,階層が深いときに曖昧さが残る。すべての祖先ラベルを連結すれば明確だが,冗長となり扱いにくい。いくつかの方法を試した結果,本研究では次の規則で文脈付きラベルを生成した。
相関索引は索引語と読みをセットにして,対応する分類項目から,独自定義のプロパティーindexedTermで関連付けた注14)。
4.5 追加リソースの生成とリンク本表中の範囲分類は,分類リソースと区別してskos:Collection型とし,上位分類とdct:isPartOfで関連付けてNDC-LDのRDFグラフに組み込んだ。また独自定義のプロパティーmemberRangeを用いて,対応する範囲の下限,上限を示した。
相関索引には表で明示されていない分類項目が含まれており,これらも同様の形でURIを与えて分類リソースとして扱った。補助表に関しては,一般補助表の地理区分,言語区分,言語共通区分および文学共通区分について,対象とする分類記号(親分類),補助記号ともに限定したうえで合成し,分類リソースとした。
さらに,NDLSHデータに含まれているNDC9との対応情報を利用し,新訂9版の各分類リソースをskos:relatedMatchでNDLSHに関連付けた。これによってNDC-LDは,NDLSHがリンクしているバーチャル国際典拠ファイル(Virtual International Authority File: VIAF)や米国議会図書館のデータとも間接的につながり,Linked Dataの巨大なグラフの仲間入りをしている。また相関索引,合成によっても得られない分類記号がNDLSHデータに含まれている場合は,それらも上記と同様にURIを与えて分類リソースとし,標目と読みのセットを独自定義のプロパティーstructuredLabelで関連付けた注15)。
NDC-LDをどう使うのか,最後に限定公開やヒアリングを通じて寄せられた提案を紹介しておきたい。ユーザー支援の観点では,主題の階層性や参照を活用したOPAC(オンライン閲覧目録)の表示やサジェスト機能,モバイルアプリへの組み込みによる図書館の排架先への案内機能等,また調査研究ツールとしては,コレクションやサービスの評価,探索行動の分析等,幅広い用途が指摘された。さらに,NDC自体広くは主題分析を研究する素材として,他の語彙集等との組み合わせによる主題組織化の研究,Web情報の自動分類の可能性に関する興味深い指摘もあった。
今回の共同研究は,伝統的な図書館のツールである分類法をLinked Dataという新しい枠組みで表現するプロセスにおいて,データとしての分類の可能性と課題に光を当てた。共同研究は当初の目的を達成し,基本的にはその成果をJLAが引き継ぐ。JLAは2016年2月に分類委員会にNDC-LDに関する専門委員を設置し,その提供について検討を行っている4)。提供環境,維持管理の方法,ポリシー等を固め,早い段階で提供を開始することが,NDC-LDの本当の出発点であるといえよう。最後に,NDC-LDの共同研究に対して関心を寄せ,支援してくださった方々に深く感謝の意を表するものである。
2013年4月から立正大学文学部特任教授(司書課程)。前職は国立国会図書館で,書誌調整,情報システム等の諸業務を担当。日本図書館協会分類委員会委員,同目録委員会委員長(2007~2009年),2015年4月から同分類委員会委員長。
文教大学越谷図書館主任司書。私立大学図書館協会東地区部会研究部分類研究分科会代表(2004~2015年度)。2007年から日本図書館協会分類委員会委員。ほか,文教大学司書課程講師,聖徳大学司書補講習講師など。
2001年,国立国会図書館入館。図書館協力部,関西館,国際子ども図書館等を経て,2015年4月から電子情報部電子情報流通課標準化推進係長としてLinked Open Dataやメタデータ,データ利活用の推進を担当。
2010年,国立国会図書館入館。主題情報部(現,利用者サービス部)科学技術・経済課科学技術係を経て,2013年4月から電子情報部電子情報流通課標準化推進係にてLinked Open Data,メタデータ,データ利活用の推進を担当。
黎明期からセマンティック・ウェブのプロジェクトにかかわり,国立国会図書館Web NDLAの設計・構築などを手掛ける。著書に『セマンティック・ウェブのためのRDF/OWL入門』(森北出版)など。慶應義塾大学文学部講師を兼務。
・武田英明. 動向レビュー:Linked Dataの動向. カレントアウェアネス. 2011, No. 308, CA1746, p. 8-11.
・ヒース, トム他著, 武田英明他訳. Linked Data:Webをグローバルなデータ空間にする仕組み. 近代科学社, 2013, 139p.