医療情報から新たな情報や知識を発見するためには,テキストの構造化が必要であり,その最初の言語処理は文字列を言語単位に切り分けることである.一般に文字列を言語単位に切り分けるには,形態素解析器と専用の形態素解析用辞書を用いる.
そこでわれわれは,診療記録などの医療情報を分析するために,形態素解析器Mecab用の分かち書き用辞書ComeJisyoV1を作成し,2008年11月に,次いでComeJisyoV2を2010年1月に,そしてComeJisyoV3を2011年3月に公開している.登録語数30,146語のComeJisyoV1から,現在公開しているComeJisyoV3は登録語数41,592語となり,解析精度が約7割のComeJisyoV1に比べて,登録語の9割以上の適正な分かち書きが可能となっている.
本稿では,ComeJisyoの概要と解析精度について述べる.
抄録全体を表示