自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
論文
医療用語資源の語彙拡張と診療情報抽出への応用
東山 翔平関 和広上原 邦昭
著者情報
ジャーナル フリー

2015 年 22 巻 2 号 p. 77-105

詳細
抄録

近年,医療文書の電子化が進み,大規模化する医療データから有用な情報を抽出・活用する技術が重要となっている.特に,診療記録中の症状名や診断名などの用語を自動抽出する技術は,症例検索などを実現する上で必要不可欠である.機械学習に基づく用語抽出では,辞書などの語彙資源の利用が訓練データに含まれない用語の認識に有効である.しかし,診療記録では多様な構成語彙の組合せからなる複合語が使用されるため,単純なマッチングに基づく辞書の利用では検出できない用語が存在し,語彙資源利用の効果は限定的となる.そこで,本稿では,語彙資源を有効活用した用語抽出を提案する.資源活用の1点目として,資源中の用語に対して語彙制限を行うことで,用語抽出に真に有用な語彙の獲得を行う.2 点目として,資源から複合語の構成語彙である修飾語を獲得し,元の語彙に加えて獲得した修飾語を活用することで,テキスト中のより多くの用語を検出する拡張マッチングを行う.検出された用語の情報は機械学習の素性として用いる.NTCIR-10 MedNLP テストコレクションを用いた抽出実験の結果,単純な語彙資源の利用時と比較して適合率および再現率の向上を実現し,本手法の有効性を確認した.また,肯定・否定などのモダリティ属性の分類を含めた抽出では,従来手法に対して,本手法が最も高い精度を実現した.

著者関連情報
© 2015 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top