抄録
我々はこれまでに,退院サマリーにテキストマイニング技術を応用することで,疾患を特徴付ける索引語の抽出や,疾患を自動判定する可能性を示してきた.本研究では索引語の重み付けにエントロピー法を加えると共に,対象疾患を14疾患に増やして検証を行った.
千葉大学医学部附属病院情報システムに保存された退院サマリー文書を対象とし,形態素解析に茶筅を,医学用語辞書としてMIED辞書を採用し,得られた索引語によって文書ベクトルを表現した.索引語の重要度はtf×idf法ならびにエントロピー法を用い,ベクトル間の類似度は内積によって求めた.
索引語抽出におけるtf×idf法とエントロピー法の比較では,重要度の順位について違いが認められたものの,抽出された語彙はほぼ共通していた.疾患の特定では両者とも高率に疾患を特定した.類似度によるクラスタリングによる分類の結果は医学的に矛盾のないものであった.本手法により,医療文書から疾患を自動的に特定・分類できる可能性を改めて示した.今後テキストマイニングは医療文書の解析および2次利用において重要な手法になると考えられた.