本解説では, 大規模な生物医学文献の情報をもとに, 創薬および医療に有益な情報および知識の発見を支援するテキストマイニング・ツールについて述べる。本ツールは米国立医学図書館(NLM)のMEDLINE(1200万件以上の生物医学文献情報を含むデータベース), これらの文献の主題を体系的に記述した2万語以上の医学主題見出し(MeSH), および200万語以上の医学用語を統合したシソーラス(UMLS)等の情報を扱える。さらに自然言語処理技術により, 文献タイトルおよび抄録に含まれるテキストを解析し, 分野別の用語およびそれらの依存関係(主語+述語など)を情報抽出し, 統計的処理により多様な観点からのマイニングを可能にしている。