自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
論文
コーパスに基づくがん用語集合の作成と評価
中川 晋一内山 将夫三角 真島津 明酒井 善則
著者情報
ジャーナル フリー

2009 年 16 巻 2 号 p. 2_3-2_44

詳細
抄録
がん患者に対する情報提供の適正化のため,がん情報処理を可能にする言語基盤であるがん用語辞書を,医師による人手で作成した.権威あるコーパスとして国立がんセンターのウェブ文書を用い,延べ約 2 万 6 千語を収集し,用語候補の集合 Cc(Cancer Terms Candidate:語彙数 10199 語)を得た.10 種のがん説明用コンテンツを対象とした Cc の用語の再現率はそれぞれ約 95% 以上であった.次に一般語やがん医学用語との関係と用語集としての整合性から用語選択基準(T1:がんそのものを指す,T2:がんを想起させる用語,T3:T2 の関連語,T4:がんに関連しない語のうち,T3 までを採用する)を作成し,Cc に対して適用,93.7% が基準に合致し 690 語を削除,9509 語をがん用語 C として選択した.選択基準に従って作成した試験用ワードセットを医師に示すことで,用語選択基準を評価した.その結果,T1 と(T2, T3, T4)の 2 つに分割した場合と (T1, T2), (T3, T4) 分割した場合で一致係数 κ が約 0.6,T1, T2, (T3, T4) の 3 つに分割した場合は約 0.5 であり,選択基準を明示せずに単に用語選択を行った場合の κ 値 0.4 に比べて高値であったことから,本研究で提案するがんとの関連性に基づいた用語選択法の妥当性が示された.さらに,既存の専門用語選択アルゴリズムにより得られた用語集合 (HN) と本研究で得られた用語集合 (C) を比較したところ,HN での再現性は 80% 以上と高値だが,精度は約 60% であり,本研究のような人手による用語選択の必要性が示された.以上のことから,専門性の高い,がんに関するような用語集合を作成する場合,本研究で行った,信頼性の高いコーパスを用い,専門家の語感を信用して,中心的概念からの距離感を考慮した用語選択を行うことにより,少人数でも妥当性の高い専門用語集合の作成が可能であることが示された.
著者関連情報
© 2009 言語処理学会
前の記事 次の記事
feedback
Top