医療情報学
Online ISSN : 2188-8469
Print ISSN : 0289-8055
ISSN-L : 0289-8055
資料
分かち書き用辞書ComeJisyoの評価
相良 かおる小野 正子小作 浩美鈴木 隆弘高崎 光浩嶋田 元
著者情報
ジャーナル フリー

2012 年 32 巻 6 号 p. 301-307

詳細
抄録
 医療情報から新たな情報や知識を発見するためには,テキストの構造化が必要であり,その最初の言語処理は文字列を言語単位に切り分けることである.一般に文字列を言語単位に切り分けるには,形態素解析器と専用の形態素解析用辞書を用いる.
 そこでわれわれは,診療記録などの医療情報を分析するために,形態素解析器Mecab用の分かち書き用辞書ComeJisyoV1を作成し,2008年11月に,次いでComeJisyoV2を2010年1月に,そしてComeJisyoV3を2011年3月に公開している.登録語数30,146語のComeJisyoV1から,現在公開しているComeJisyoV3は登録語数41,592語となり,解析精度が約7割のComeJisyoV1に比べて,登録語の9割以上の適正な分かち書きが可能となっている.
 本稿では,ComeJisyoの概要と解析精度について述べる.
著者関連情報
© 2012 一般社団法人 日本医療情報学会
前の記事 次の記事
feedback
Top