近年,医療文書の電子化が進み,大規模化する医療データから有用な情報を抽出・活用する技術が重要となっている.特に,診療記録中の症状名や診断名などの用語を自動抽出する技術は,症例検索などを実現する上で必要不可欠である.機械学習に基づく用語抽出では,辞書などの語彙資源の利用が訓練データに含まれない用語の認識に有効である.しかし,診療記録では多様な構成語彙の組合せからなる複合語が使用されるため,単純なマッチングに基づく辞書の利用では検出できない用語が存在し,語彙資源利用の効果は限定的となる.そこで,本稿では,語彙資源を有効活用した用語抽出を提案する.資源活用の1点目として,資源中の用語に対して語彙制限を行うことで,用語抽出に真に有用な語彙の獲得を行う.2 点目として,資源から複合語の構成語彙である修飾語を獲得し,元の語彙に加えて獲得した修飾語を活用することで,テキスト中のより多くの用語を検出する拡張マッチングを行う.検出された用語の情報は機械学習の素性として用いる.NTCIR-10 MedNLP テストコレクションを用いた抽出実験の結果,単純な語彙資源の利用時と比較して適合率および再現率の向上を実現し,本手法の有効性を確認した.また,肯定・否定などのモダリティ属性の分類を含めた抽出では,従来手法に対して,本手法が最も高い精度を実現した.
抄録全体を表示