情報管理
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
知的情報分析による索引作成とその意義 CA作成における特許分析を中心に
佐々木 啓子
著者情報
ジャーナル フリー HTML

2012 年 55 巻 7 号 p. 472-480

詳細
著者抄録

化学分野で世界最大の文献データベースChemical Abstracts(CA)は専門家による知的情報分析により索引付与されている。機械的索引では,重要でない情報も索引され情報洪水を引き起こす。また,異なった表現をされている事物を漏れなく検索することも不可能である。CAでは化学物質索引はCAS登録番号を,一般事項索引では統制語を使用しているため,漏れなく効率的に検索できる。CASロールにより目的の化学物質をピンポイントで検索することができる。知的情報分析による索引作成とは,文献から発明者や著者の意図をくみ取り,必要に応じて情報を補い,付加価値のある索引付与を行うことである。このようにして作成された索引の集合を解析することにより,研究開発や企業合併など重要な局面で決定要因となる高度な情報を得ることができる。

1. はじめに

Chemical Abstracts(CA1),ケミアブ)は化学・科学技術に関する文献データベースで,米国のChemical Abstracts Service(以下CAS,米国化学会の一部門)により提供されている。CAに収録されている文献には,世界中の特許,学術論文,単行本,学会会議録などが含まれる。特許は60か国以上から発行される情報を収録し,雑誌は1万誌以上をカバーしている。CAの年間収録件数(図1参照)は1990年代から指数関数的に増加し,2011年には約130万件に達した。化学関係分野で特許と学術論文の両方を世界規模で包括的に収録しているデータベースは他にはなく,CAは後述のCAS登録番号とともに化学情報の世界標準となっている。

図1 CAの年間収録件数の推移

1981年までは日本で発行された特許と雑誌論文は全件CASで抄録・索引作成を行っていたが,1982年から化学情報協会(JAICI)でもアナリシスを開始した。2011年には,CAに収録された日本公開特許(47,853件)の過半数をJAICIで抄録・索引作成した。一方,雑誌論文はほとんどがCASで処理されている。

STN上のCAファイル2)は主に情報担当者向けのサービスで,研究者などエンドユーザー向けにはSciFinder3)が提供されている。両サービスで検索方法は異なるが,収録されている情報はまったく同一である。なお,CAの冊子体は2009年末で終刊となり,創刊の1907年から1世紀を経て全面的にオンラインサービスに移行した。

本稿では,CAの索引付与で行われている専門家による知的情報分析について,特許の索引例を中心に初心者にもわかりやすく説明する。特に,知的分析によりもたらされる付加価値に焦点を置き,機械的索引との対比で述べる。

2. CAの索引の特徴と索引の重要性

CAの索引の特徴は,以下のとおりである。

  • •   明確な索引方針に基づく索引作成
  • •   重要な事物に限定した索引付与
  • •   専門家の知的分析による索引付与
  • •   化学物質索引におけるCAS登録番号の使用
  • •   それ以外の索引(一般事項索引)での統制語の使用
  • •   化学物質のその文献中での役割を示すCASロール(役割)の付与

索引付与は高度の訓練を受けた専門家(アナリストと呼ばれている)が文献1件1件を熟読し,何が重要か判断し,CAの方針に則して行っている。付与された索引は検索に使用され,その原報を見つける手がかりとなる。つまり,索引は原報とその情報を探している検索者とを結びつける重要な役割を果たしている。「データベースの価値は索引により決まる」と言われる所以である。

3. 専門家による索引の必要性

索引付与において,なぜ専門家による知的情報分析が必要なのか,逆に,機械的索引ではどのような不便があるかについて,具体例に基づき説明する。

3.1 機械的索引の問題点

以下の特許例 1を用い,機械的索引ではどのような索引になるか考えてみよう。

特許例 1

【請求項1】米と水とを混合して炊飯前に,マルトースを添加して米飯を製造する。

助詞など,それ自身では意味をなさない言葉を除く,「米」,「水」,「混合」,「炊飯」,「マルトース」,「添加」,「米飯」,「製造」が索引されると予想される。この方法でどのような不便があるだろうか。ここで「水」に注目してみよう。ご飯を炊く際,水を加えるのは当たり前のことで,新規性や重要性はない。重要ではない場合にも索引が付与されてしまうと,水の索引を有する文献数は膨大になると予想される。飲料,液体化粧品,液体医薬品,水性インク,汚水処理など,水が関わる文献すべてに水が索引付与されてしまうからである。

一方,水を使うことに新規性や重要性がある場合もある。例えば以下の特許例 2などがその例である。

特許例 2

【請求項1】レボフロキサシンを,含水率が0.14容量%以上4容量%未満である含水低級アルコール類で処理することを特徴とするレボフロキサシン・1/2水和物の製法。

この例でも機械的索引で「水」が索引されると予想される。この場合は重要な役割を果たしている「水」が索引されることになる。

言うまでもなく,機械的索引では重要度の判断ができない。その結果,特許例 1のように「水の使用は重要ではないが水が索引されている」膨大量の文献情報と,特許例 2のような「水の使用が重要かつ,水が索引されている」比較的少数の文献情報とが混在してしまう。そこから,水の使用が重要な文献を探し出すには,目視によるチェックしかなく,多大な労力を要する。全件チェックは実質不可能となる。このような機械的索引ではまさに情報洪水を引き起こしてしまう。

3.2 専門家による索引付与

このような機械的索引の対極にあるのが,専門家による索引付与である。CAの索引方針は,新規性のある事物や重要な事物(文献の主題に関わる事物や焦点があてられている事物も含む)に対してのみ索引することである。「新規性がある」とは「これまで知られていなかった何かがある」ということであり,新規物質のみならず既知物質でも,新しい合成法,用途,性質などが発明,研究されていれば索引対象となる。

この索引方針に従い,専門家は原報をよく読み,内容を理解した後,何が新規か,重要か,何に焦点があてられているのかを判断し,索引付与を行う。特許例 1で索引対象となるのは,発明の主題である米飯と,新規用途を有するマルトース(既知物質)だけである。特許例 2では,レボフロキサシン,水,低級アルコール類,とレボフロキサシン・1/2水和物である。これらは全部既知物質であるが,新製造法に関与する重要な化学物質として索引対象となる。

このように,同じ「水」でもその重要度により索引対象となるかどうかが決まる。つまり索引付与とは,「何が重要で,何が重要でないか」を正しく判断することから始まるとも言える。そしてその判断ができるのは,その分野に精通し,高度な知識を持つ専門家にほかならない。

「重要でない」と判断される化学物質の代表例としては,合成反応における汎用溶媒や,薬物の有効性を実証するための汎用アッセイ試薬などがある。

3.3 化学物質索引におけるCAS登録番号の付与

次に特許例 2の「レボフロキサシン」に注目してみよう。レボフロキサシンは医薬品用合成抗菌剤の一般名で,日本での商品名はクラビットである。商品名がつけられる前はDR 3355という開発コード番号が使用されていた。化学物質は複数の名称を持つものが多いが,医薬品の場合はさらに開発コード番号や商品名が増える。国際化商品の場合,各国での開発番号と商品名がさらに増えるため,1つの化学物質に対し多くの名称が存在する。この結果,文献上でも1つの化学物質に対しさまざまな名称が使われることになる。名称を使用せず構造図だけの場合もある。

特許例 2の機械的索引では「レボフロキサシン」が索引されたが,検索者がその名称を知らなければ,その特許をヒットさせることができない。別名,例えば,クラビットという商品名で検索しても特許例 2にはたどり着くことができない。言うまでもなく機械的索引では,そこに書かれた文字列がそのまま索引となるため,その文字列を検索語に用いた場合のみ,その文献をヒットさせることができる。これも機械的索引の限界である。このため,ある1つの医薬品の包括的文献検索では,そのすべての名称,つまり,体系名も一般名も世界中の開発コード番号も商品名も全部検索語に使って検索する必要がある。これはほとんど不可能であり,非効率的である。仮に可能だったとしても,漏れのない検索とは保証できない。この検索方法では構造図だけで表記されている文献をヒットさせることが不可能だからである。

では1つの医薬品について漏れなく効率的に検索を行うことができるようにするには,どのような索引が求められるのか? この答えとしては,「原報中でどのような名称が使用されていても,また名称ではなく構造図で表現されていても,検索語1つで目的文献にたどりつけるような索引」となろう。CAの索引ではまさにそのような索引が付与されている。具体的にはCAS登録番号と呼ばれるもので,個々の化学物質に付与された固有の番号,いわば化学物質の背番号である。CAS登録番号1つを検索語に用いるだけで,原報中の表記がどのようなものであれ,その化学物質に関する文献すべてを漏れなく効率的に検索することができる。

CAS登録番号はハイフン2個でつながれた数字からなる一連番号である(ただし,最後の数字はチェックデジット)。新規物質が見つかるたびに順番に付番されるため,その番号と構造の間には関係がない。CAS登録番号の特徴は,立体異性体,ラセミ体,位置異性体,水和物などの溶媒和物,塩に対して以下のように別々の番号が付与されることである。

  • レボフロキサシン(L体)  100986-85-4
  • レボフロキサシンのD 体異性体  100986-86-5
  • レボフロキサシンのラセミ体  82419-36-1
  • レボフロキサシン1/2水和物  138199-71-0
  • レボフロキサシン塩酸塩  177325-13-2

全CAS登録番号はREGISTRYファイルに登録されており,そこには化学物質構造,体系名,一般名,開発コード番号,商品名,分子式,物性データなどの情報も含まれている(図2参照)。例えば,クラビットという商品名しか情報がない場合,REGISTRYファイルを検索することによりそのCAS登録番号やその他の情報を得ることができる。構造図しかわからない場合でも構造検索により同様に情報を得ることができる。

図2 レボフロキサシンのREGISTRYファイルのレコード(一部)

CAS登録番号はCA以外の多くのデータベースや既存化学物質台帳,試薬カタログでも使用されている。また化学物質の輸出入規制当局でも使用されている。

3.4 一般事項索引における統制語の付与

CAでは一般事項索引でも同様な仕組みが作られている。一般事項索引とは,個々の化学物質以外の事物が対象で,例えば活性,反応,用途,性質,処理プロセス,理論,動植物名,微生物名,化学物質群(例:アルコール類)など広範にわたっている。一般事項索引ではあらかじめ決められた用語(統制語)が索引見出し語として用意されている。例えば,抗菌剤はAntibacterial agentsという見出し語が用意されている。このため文献中でbactericides,disinfectants,antiseptic agents,bacteriostatic agents,germicides などさまざまに表現されていても,Antibacterial agentsという索引見出し語を付与する。一方,検索者はその索引見出し語で検索することにより,原報中の表記に関わりなく,漏れなく,効率的に検索することができる。

索引見出し語の確認は,CAファイルのオンラインシソーラスであるCA Lexiconを使って日本語で行うことができる(図3参照。CA Lexiconの内容は,CAが冊子体で発行されていた時代,検索補助資料として使われていたCA Index Guideの内容を引き継いでいる)。

図3 CA Lexiconの表示例

索引見出し語は科学技術の発達とともに追加・変更されている。その一例として2006年に新設されたCogenerationという索引見出し語がある。これは,コジェネレーション(発電機などから排熱と電気の両方を有効利用するシステム)に関する特許が増えてきたため,JAICIの専門家からCASに新索引見出し語を提案し,採用されたものである。

3.5 化学物質へのCASロール(役割)の付与

目的の文献をピンポイントで得られるようにするため,CAではCASロール(役割)を個々の化学物質と化学物質群(アルコール類など)に付与している。CASロールは,その化学物質の文献中における役割(合成原料か,生成物か,分析に使用されたのかなど)を示し,専門家が付与する下位概念の3文字コードと,それに対し機械で自動的に付与される上位概念の4文字コードの2種類からなる注1)

特許例 2では,以下の下位概念のCASロールが専門家により付与される(図4参照)。

レボフロキサシン PEP(プロセス)
NUU(処理物質)
低級アルコール類 NUU(処理物質)
レボフロキサシン・1/2水和物 IMF, SPN(製造)
もし,レボフロキサシン・1/2水和物の毒性についても調べられていれば,さらに毒性のロール(ADV)が付与される注2)

図4 特許例 2のCAのレコード(一部)

以上,CAの索引方針および漏れのない効率的検索が可能となるような索引の仕組みについて,機械的索引との比較で述べた。ここからは,その索引付与に至るまでに専門家がどのような知的情報分析を行うのか,いくつか具体例で説明する。

4. 知的情報分析の実際

4.1 内容分析(主題分析)

文献中で実験結果の記述はあるが,発明者や著者がその現象に言及していない場合がある。例えば,「α結晶とβ結晶が得られた」という記述はあっても「結晶多形」と表現されていない場合や,「栄養の吸収率が上昇した」と書いてあっても「生物学的利用性」の言及がない場合などである。CAでは,文献中で直接言及されていない事物でも,重要であれば専門家が適切に判断し索引付与を行う(上記の例では結晶多形,生物学的利用性が索引される)。

用途に直接言及がない場合も同様である。添加剤の効果の記述しかない場合でも,該当する用途を索引する。例えば,

  • 「ポリマー結晶の成長を速めた」→結晶核剤,
  • 「反応器に重合物が付着するのを防いだ」→スケール防止剤,
  • 「被ばく予防効果があった」→放射線遮蔽,
  • 「船底にフジツボが付着するのを防止した」→海洋防汚剤

を索引する。

少し内容が複雑な場合もある。例えば,「その添加剤により甘みが増した」と文献に書いてある場合,その添加剤は人工甘味料なのか,それとも苦みを抑える添加剤で,苦みが減少した結果,相対的に甘みが増加したのか原報をよく読み判断する必要がある。前者ならば,人工甘味料,後者と判断すれば食品添加物を索引する。

「合成反応が加速された」と記述されているが,それが触媒効果なのか,溶媒効果なのかに言及がない場合でも,専門家がその反応に関与している化学物質,その使用量,その他の条件から触媒効果と判断すれば触媒を索引する。

4.2 多義語

「水」のように一義的に決まるものは索引上問題とはならないが,2つ以上の意味を持つものは文献内容から判断が必要となる。例えば,「アルコール」と書かれている場合,それはエタノールのことなのか,アルコール物質一般を意味しているのか,あるいはその両方なのかを判断する。同様な例としてはエーテル(エチルエーテルかエーテル化合物一般か),パーライト(火山岩(perlite)か鋼の組織(pearlite)か),駆虫剤(農業用途の殺線虫剤かヒトの治療剤か)などがある。

4.3 不統一な定義

学術用語などの定義が統一されていないため,発明者や著者により,まちまちに使用されている用語がある。例えば,周期律表は3種類存在している。CAではIIIB族元素がSc,Y,Laの周期律表を使用しているが,これらがIIIA族元素と記載されている文献もある。発明者や著者がどの周期律表に基づいているか文献の内容から判断する必要がある。

金属の定義も統一されていない。CAではシリコンは金属とは見なしていないが,金属と見なして書かれている文献もある。また,アセタール樹脂は通常主鎖の中にアセタール構造を持つ樹脂を指すが,文献によっては,ポリビニルアルコールの後処理で側鎖にアセタール構造を持つポリマーをアセタール樹脂と呼んでいる場合もあり,内容をよく確認する必要がある。

4.4 不完全な記述

文献中の記載が不完全のため与えられた情報だけでは索引できない場合がしばしばある。そのような場合は,知的分析により情報を補い索引付与を行う。

(1) 化学物質の光学異性体情報など

不斉炭素を含む化学物質で,立体情報がまったく与えられていない場合,専門家が適切に判断する。通常,合成分野では光学的不活性物質(ラセミ体)として索引するが,生化学分野では,この分野の常識に従いアミノ酸はL体を,不飽和脂肪酸はZ体を索引する。

直接立体情報が与えられていない場合でも,他の情報から立体を特定できる場合もある。例えば,「ハッカから抽出したメントール」という記述からL-メントールを索引する場合などである。

(2) 反応生成物

有機合成関係特許では,いくつか具体的な実施例の後,「以下同様に下記の原料を使用し,対応する生成物を合成した」という記述が続いている場合がある。このような場合,「対応する生成物」は特定されていないが,専門家が原料情報を基に生成物を特定することができれば,その生成物も索引する。例えば,カルボン酸とアミンが原料の場合,対応するアミドを索引する。

無機化合物の合成では,同じ原料を使用しても反応温度や他の条件により異なる生成物が得られる場合が多い。文献中で生成物を特定していない場合も数多くあるが,専門家が,原料と反応条件から生成物を特定できれば,それを索引する。例えば,複数の金属酸化物が加熱処理された場合,その生成物は複合酸化物かセラミックスか,などの判断を行い索引する。

5. 個々のデータから知識・知恵へ

このように,索引は専門家による知的情報分析を経て,重要と判断された事物に対してのみ付与される。その分析とは,文献を通り一遍に読むことではなく,さらに内容に踏み込んで発明者や著者の目的,意図をくみ取り,必要に応じて情報を追加し,索引に反映させることである。知的分析により,機械的索引では不可能な判断に基づく索引がなされ,付加価値のある索引作成が可能となる。索引は,将来その文献と検索者を結びつける手段となるため,専門家が1件1件の文献に対しきちんと索引付与することには重要な意味がある。しかもその重要性は文献検索レベルにとどまらない。

付与された索引はマクロ的には1個のデータの点でしかないが,その点が集まり集合を作ると,その集合を解析することにより,新たな情報が得られる。具体的には,まず特定テーマで文献集合を作り,その集合に対し文献の発行年,発明者,著者,化学物質索引,索引見出し語などの解析を行うことにより,種々有用な情報が得られる。例えば,競合他社の動向,研究開発の経年変化,類似化合物の活性分布などを知ることができる。このように個々の索引情報の集合は高度な情報に変換することができる。そしてこのようにして得られた情報は重要な決定,例えば研究開発方針,競合戦略,企業合併の成功予想などを行う際の判断に使うことができる。

5は抗体医薬を研究している2社が保持している特許を対象疾患別に解析した図である。A社は癌,炎症,アレルギー分野に集中しているが,B社はそれ以外の分野もカバーしていることがわかる。図6はその2社の特許の集合に対し,索引見出し語の分布をSTN AnaVist4)というツールで分析・可視化したものである。点が集まっているところは索引数の多さを表し,よく研究されていることを示す。このツールにより,A社由来の索引見出し語とB社由来のものを色別に表示し,研究分野の重なりの有無を可視化できる。その結果を詳細に検討することにより,合併の可能性や成功予測が可能となる。CAは統一された索引用語(統制語)を使用しているため,解析精度,信頼性が高い。

図5 2つの会社が保持する特許の対象疾患領域分布
図6 STN AnaVistによる表示例

6. 終わりに

これまで述べてきたように,CAの索引作成の根幹は専門家による知的情報分析であり,文献中の文字列を基に作成される機械的索引とは対極にある。知的情報分析により,発明者や著者がどのような表記をしていても,さらには表現していないことでさえも,重要な事物には索引付与がなされ,その文献を確実に簡単に見つけだすことができる。本稿がその理解の一助となれば幸いである。

本文の注
注1)  1994年前半以前に収録された文献には,アルゴリズムにより機械的にCASロールが付与されているため,上位概念の4文字コードのみしか付与されていないものもある。

注2)  ADVは,その文献中で毒性に関して実験,研究,または言及されていることを示すだけで,毒性の有無とは関係がない。

参考文献
 
© 2012 Japan Science and Technology Agency
feedback
Top