大規模生物医学文献データベースのテキストマイニング・ツール

武田 浩一; 浦本 直彦; 松澤 裕史; 長野 徹; 村上 明子; 竹内 広宣

doi:10.11291/jpla1956.49.29

武田浩一, 浦本直彦, 松澤裕史, 長野徹, 村上明子, 竹内広宣

著者情報

キーワード: テキストマイニング, MEDLINE, 情報抽出, 生物医学文献, 知識発見

ジャーナルフリー

2004 年 49 巻 1 号 p. 29-33

DOI https://doi.org/10.11291/jpla1956.49.29

詳細

抄録

本解説では, 大規模な生物医学文献の情報をもとに, 創薬および医療に有益な情報および知識の発見を支援するテキストマイニング・ツールについて述べる。本ツールは米国立医学図書館(NLM)のMEDLINE(1200万件以上の生物医学文献情報を含むデータベース), これらの文献の主題を体系的に記述した2万語以上の医学主題見出し(MeSH), および200万語以上の医学用語を統合したシソーラス(UMLS)等の情報を扱える。さらに自然言語処理技術により, 文献タイトルおよび抄録に含まれるテキストを解析し, 分野別の用語およびそれらの依存関係(主語+述語など)を情報抽出し, 統計的処理により多様な観点からのマイニングを可能にしている。

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）