Journal of Information Processing and Management
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
The JST thesaurus map : Finding an effective search word from visualized JST dictionaries
Takao KUNIOKAYuki TAMURAFumie YAMAZAKIMiho HORIUCHISatoru BANNAI
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2012 Volume 55 Issue 9 Pages 662-669

Details
著者抄録

科学技術振興機構(JST)は,科学技術文献データベースにおける統制語索引に用いる「JST科学技術用語シソーラス」,同義語,異表記語を収録した「大規模辞書」など複数の用語辞書を所有している。これらの辞書が持つ,各用語の上位下位関係や同義関係など用語間のさまざまな関係性をもとに統合的に可視化を行うJSTシソーラスmapを開発した。JSTシソーラスmapの持つ機能,開発の目的などを紹介する。

1. はじめに

現在の検索エンジンをはじめとしたWeb検索サービスは,多くの場合,利用者が検索キーワードを入力することから始まる。すなわち利用者自身が自己の知識の範囲から能動的にスタート(キーワードを入力)する必要がある。これは一般的な事項を調べる際や,十分な知見を持つ分野の調査であれば大きな問題とはならないが,知識を十分に持たない分野の調査が必要な場合などでは,大きな障壁になることがある。それは適切なキーワードで検索できないことによる情報発見の機会損失であったり,適切な検索キーワードを知るまでに多大な時間を要する非効率性であったりする。これは,本稿で対象とするような,科学技術に関連する専門情報の検索においてはより顕著になる。

多くの検索サービスにおいて,こうした問題を軽減するために,利用者が入力した検索語から他の検索キーワードを推奨するサジェスト機能や,他の利用者の履歴の統計から,よく検索されているキーワードを提示するなど,できるだけ利用者が受動的に検索を行える機能が提供されているが,体系的な知識をもとにした検索が必要になる場合,これらのサジェストなどでは必ずしも十分でない。

また,専門用語には多くの同義語が存在し,論文などでは著者により同じ意味の用語でも表記が異なるため,情報発見の機会損失を避けるためには同義語の網羅性が重要となるが,これを検索のたびに利用者自身が行うのは容易ではない。

科学技術振興機構(JST)では,このような問題に対して,科学技術用語を意味の階層関係から体系化した「JST科学技術用語シソーラス」,同義語などを収録した「大規模辞書」などの辞書を継続的に整備し,JDreamⅡにおける文献検索の機能であるシソーラスブラウザなどで利便性の向上に取り組んできた1)。また無料サービスであるJ-GLOBALにおいても同義語展開の機能が実装されている2)

今回,このようなサービスをさらに拡張し,体系的に整備された科学技術用語を可視化し,その全体像を見ながら,利用者が適切な検索キーワードを選択できるようにしたものがJSTシソーラスmapである。JSTシソーラスmapでは,同義語・異表記語を網羅した検索式の作成も容易にできるようになる。

本稿では,JSTが持つ辞書と合わせてJSTシソーラスmapの持つ機能などを紹介する。

2. JST辞書とデータ構造

最初に,JSTシソーラスmapで可視化の表示対象となっているJSTの辞書類について説明する。本稿では,これらの辞書を総称してJST辞書と呼ぶ。

2.1 JST科学技術用語シソーラス

JSTの辞書の骨格となる最も重要な辞書である。用語の意味の広さをもとに,その上位下位関係を定義し階層関係がまとめられている辞書であり,収録語数は約4万語である。2008年に改訂を行っている3)

1は,シソーラスにおける「燃料電池」の階層関係を表したものである。NT(Narrower Term)とは,「燃料電池」から見て下位概念の用語を示している。また,・(中点)は階層の深さを表す。BT(Broader Term)とは,「燃料電池」から見て上位概念の用語を示している。CA23とは,この用語が属するカテゴリーコードで,JSTシソーラスmapのカテゴリー検索で用いられている。

図1 シソーラスの例

JSTがJDreamⅡにおいて提供する科学技術文献データベースJSTPlus(国内外の科学技術文献),JMEDPlus(国内の医学系文献)の統制語索引は,このJST科学技術用語シソーラス(以下,JSTシソーラス)に基づいて行われている。

2.2 大規模辞書

科学技術用語の同義語を収録した辞書であり,収録語数は,約100万用語,22万概念である。

同義語の例を図2に示す。これらは,同じ意味を表す用語のグループとして同一のグループID(同義語ID)が振られている。大規模辞書の22万概念とは,このグループ数に相当する。

図2 同義語の例

2.3 異表記辞書

科学技術用語の異表記(表記ゆれ)を収集した辞書であり,収録語数は約30万用語である。

異表記語の例を図3に示す。このように,その音は同じでも表記が異なるものを異表記語として扱っている。広い意味では同義語の一部であるが,辞書整備の効率化のため,独立した辞書として整備を行っている。

図3 異表記語の例

2.4 共出現

共出現とは,文献に付与された索引語の中で,ある用語が他のどの用語とともに出現したのかを集計したデータである。共起関係とも言われる。前述したJSTシソーラスと大規模辞書は,科学技術文献データベースJSTPlus,JMEDPlusの索引に用いられているため,これらの辞書内の用語が,他のどの辞書内の用語と同一の文献に出現したかをカウントし頻度が高いものを抽出している。JSTシソーラスmapでは,用語と用語の共出現の関係について400万の関係を持っている。

図4 文献索引の例

共出現においては,例えば,「廃油」と「リサイクル」のように直接的には用語同士の意味のつながりがないものが多く抽出される。用途,手段,目的など実際の研究・実務において関連の深い用語が出現するため,通常では得られづらい気付きや追加すべき検索キーワードを得ることができる。

2.5 各辞書の関係性

これまで説明したJSTシソーラス,大規模辞書,異表記辞書については,それらに含まれる用語同士の結びつけが辞書横断的に行われている。

大規模辞書に含まれる同義語グループはそのほとんどが,JSTシソーラス用語と関係付けられている。図5の例では,「マイクロ燃料電池」「小型燃料電池」「超小型燃料電池」を含む同義語グループは,JSTシソーラス用語の「燃料電池」の下位に位置する同義語グループと定義されている(燃料電池との関係子をBTと定義)。

図5 各辞書のつながり

また異表記辞書の用語「小形燃料電池」は,大規模辞書と共通する用語「小型燃料電池」を介して結び付けられおり,大規模辞書の同義語グループに対して「形」と「型」の部分が異なる異表記語のパターンを補完している。

このように,JSTシソーラスが持つ上位下位の関係を大きな軸とした各辞書間の関係性に基づき,可視化表示を行ったのがJSTシソーラスmapである。

これらの辞書は,すべて人手の作業で,用語の意味の調査による同義語グループの整備,用語間の関係性の定義などが行われている。そのため機械的な用語切り出し処理などで発生しやすいノイズなどは含まれず,非常に信頼性の高いデータのみで構成されている。

3. JSTシソーラスmapの目的

冒頭にも述べたが,科学技術に関連した専門情報の検索,特にまだ知見が深くない分野の検索において,適切なキーワードを選択したり,キーワードの候補を幅広く収集したり,選択したキーワードの同義語・異表記語を網羅することは容易でない場合が多い。

ここまで説明したJSTシソーラス,大規模辞書,異表記辞書,共出現を一元的に可視化表示し全体を「俯瞰」することにより,利用者がこれまで見つけられなかったキーワードを容易に発見していけるようにすることがJSTシソーラスmapの目的である。また,用語の上位下位関係が整備されているため,自分の既知の用語が全体でどの位置にあるのかも判断することができる。より概念を広げたければ上位語に,より具体的に絞りたければ下位語に着目していくことになる。さらに共出現や関連語から用途,技術の適用先,用いられる材料など幅広いキーワードが得られ,検索のヒントになる可能性も高い。

また,発見したキーワードの同義語・異表記語も整備されているため網羅性を高めた検索も可能となる。どのような検索サービスを利用していても,検索キーワードを広げる必要がある場合には,JSTシソーラスmapが役立つシーンがあるのではないかと考えている。

4. JSTシソーラスmapの機能

4.1 JSTシソーラスmapの見方

6に「燃料電池」を中心語としたJSTシソーラスmapの表示例を示す。

図6 「燃料電池」を中心語とした表示例

燃料電池の上位概念語として,「化学電池」さらに「電池」がある。また下位概念語としては,「アルカリ燃料電池」「気体燃料電池」などさまざまな種類の燃料電池が俯瞰できる。この表示では意味概念の上位下位を縦軸にして表示している。

左側には共出現のエリアがあり,「触媒活性」「カソード」など,「燃料電池」と直接意味のつながりはないが,技術要素として関係が深い用語が同一論文の中で多く使われていることがわかる。共出現エリアの表示順は,右上から頻度の多い順に表示されている。共出現語の上にマウスのカーソルを合わせると,ポップアップ表示で共出現の頻度が確認できる(図7)。

図7 共出現の頻度表示の例

また,右側にある関連語とは,辞書整備の中で専門的に関係性が定義された用語である。共出現と用語が重複する場合は,関連語を優先し重複表示を排除している。

メニューの【操作】から【縦横レイアウト切替】を選択すると,意味概念の上位下位を横軸にして表示する(図8)。下位語が多数ある場合など,このレイアウトが見やすいケースもある。

図8 縦横レイアウト切替の表示例

また,中心語の切り替えはとてもシンプルで,map表示上で気になる用語があれば,それをダブルクリックすることで,その用語が中心語となったmapが表示される(図9)。JSTシソーラスmapを俯瞰的に見ていく中で,気になる用語が出てきたらすぐに中心語を切り替えて,次々とmapを参照する使い方を想定している。

図9 中心語切り替えの例

4.2 同義語・異表記語の参照

簡易的に同義語・異表記語を次々に参照する場合には,JSTシソーラスmap上で,各用語ボックスの上にマウスのカーソルを合わせると,ポップアップで表示される(図10)。

図10 ポップアップによる同義語・異表記語の表示

また,より詳しく確認したい場合には,メニューの【表示】から【同義語・異表記語パネル】をオンにすると,中心語として表示している用語の同義語・異表記語の詳細を見ることができる(図11)。

図11 同義語・異表記語パネルの表示例

4.3 検索式の組み立て

JSTシソーラスmapを使って詳細な検索式を組み立てることができる。具体的には,メニューの【入出力】から【検索式作成】を選択し表示される検索式作成ウィンドウを用いる。

map上から検索に使用したい用語を複数(最大5個まで)選択し,検索式作成ウィンドウ上にマウスでドラッグする。その用語の同義語の展開有無や検索演算子を指定し,出力を行うと検索式が自動的に組み立てられる。

12の例では,mapから「鉛蓄電池」「ナトリウム‐硫黄蓄電池」の2つの用語を選択し,演算子ORを指定しているが,同義語展開を有にしているので,紐付く同義語が展開されて検索式が作成されている。

図12 検索式の作成

4.4 その他の機能

上記以外にも以下で挙げる利用支援機能を用意している。

  • •   map描画した用語の履歴呼び出し
  • •   着目した用語を目立たせるハイライト機能
  • •   map保存および保存mapの呼び出し
  • •   印刷,画像ファイル出力機能
  • •   利用者ごとの表示配色,階層のレベル表示設定

5. JSTシソーラスmapの利用方法

JSTシソーラスmapを利用するには,現在,以下の3つの方法がある。

(1) URL直接参照

以下のURL(http://thesaurus-map.jst.go.jp/jisho/fullIF/index.html)を参照すると,JSTシソーラスmapのトップ画面である検索画面が表示される。文字列で検索のほかに,カテゴリーもしくは50音検索でJSTシソーラスに収録されている用語のリストが表示されるので,検索キーワードが思いつかない場合,そこから選択していくことでmapを表示することも可能となっている。

図13 JSTシソーラスmapの検索画面

(2) J-GLOBALから

JSTシソーラスmapは,2012年9月にリリースされたJ-GLOBAL正式版に組み込まれている。

図14 J-GLOBALとの連携

J-GLOBALの検索ボックス横にシソーラスmapボタンがあり,これをクリックすると検索ボックスに入力された文字列に対応するmapを表示する。map上で選択した別の用語を検索ボックスに戻すことも可能である。

また,J-GLOBALは科学技術用語としてJSTシソーラス,大規模辞書用語をコンテンツとして持つためその詳細画面にJSTシソーラスmapのガジェットが埋め込まれている。

(3) JDreamⅡから

JDreamⅡからは従来のシソーラスブラウザからの呼び出し,および回答表示画面のアクティブなリンクとなっている索引のクリックにより利用が可能になっている。

6. 今後の方向性

現在,用語などの言語資源を整理しWebで公開しているサービスは多数あるが,その多くは切り出しなどの機械処理を行ったものであり,どうしてもノイズを含むケースがある。

JSTシソーラスmapが可視化のソースとしているJSTの辞書類は,長年,専門家による精査を継続してきたものであるため,上位下位の階層は深いレベルで体系化されており,同義語情報も日々更新が続いている。

このようなコンテンツは,利用される機会が増えていかなければその価値を維持することは難しいと考えられる。ぜひ,JSTシソーラスmapをご利用の上ご意見をお聞かせいただきたい。

また,JSTシソーラスmapの組み込み先として,J-GLOBALとJDreamⅡを紹介したが,JSTシソーラスmapはWebAPIによる機能提供を基本としているため,他の検索サービスにも比較的容易に組み込みが可能である。現在,WebAPI提供へ向けた環境整備を進めているところである。今後のJSTシソーラスmapの発展にご期待いただきたい。

参考文献
 
© 2012 Japan Science and Technology Agency
feedback
Top