自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
技術資料
病名アノテーションが付与された医療テキスト・コーパスの構築
荒牧 英治若宮 翔子矢野 憲永井 宥之岡久 太郎伊藤 薫
著者情報
ジャーナル フリー

2018 年 25 巻 1 号 p. 119-152

詳細
抄録

高度な人工知能研究のためには,その材料となるデータが必須となる.医療,特に臨床に関わる分野において,人工知能研究の材料となるデータは主に自然言語文を含む電子カルテである.このようなデータを最大限に利用するには,自然言語処理による情報抽出が必須であり,同時に,情報抽出技術を開発するためのコーパスが必要となる.本コーパスの特徴は,45,000 テキストという我々の知る限りもっとも大規模なデータを構築した点と,単に用語のアノテーションや用語の標準化を行っただけでなく,当該の疾患が実際に患者に生じたかどうかという事実性をアノテーションした点の 2 点である.本稿では病名や症状のアノテーションを対象に,この医療コーパス開発についてその詳細を述べる.人工知能研究のための医療コーパス開発について病名や症状のアノテーションを中心にその詳細を述べる.本稿の構成は以下の通りである.まず,アノテーションの基準について,例を交えながら,概念の定義について述べる.次に,実際にアノテーターが作業した際の一致率などの指標を算出し,アノテーションのフィージビリティについて述べる.最後に,構築したコーパスを用いた病名抽出システムについて報告する.本稿のアノテーション仕様は,様々な医療テキストや医療表現をアノテーションする際の参考となるであろう.

著者関連情報
© 2018 一般社団法人 言語処理学会
前の記事
feedback
Top