抄録
生命科学および医学の教育研究を支援する目的で,筆者らは広範な生命科学の諸領域で使われる英語および日本語の専門用語を文献コーパスの定量的解析から抽出し,独自の対訳辞書をライフサイエンス辞書(LSD)として公開してきた.今回,テキストマイニング等に応用できるシソーラスへの発展を目標に,LSDで対訳と意味情報を定義した5万語の英語と5万語の日本語について文献情報による評価を行い,続いて,MeSHツリーとのマッピングによる体系化を試みた.主にPubMed抄録からなる英語コーパスをLSD収録語で解読できる割合は80%であった.MeSHツリーから得られた6.5万語のうち,LSDと一致したのは20%であったが, PubMed中に出現するMeSH termについては40%がカバーされていた.MeSHにないLSD収録語としては略語,名詞以外の品詞,未分類の学問分野の用語などが浮かび上がった.今回の解析から,我が国で今後,医療現場等で発生する大量のテキストをコンピュータで解析するためには新たな対訳シソーラスの必要性が示唆された.