自然言語処理

巻頭言

事例の変遷

柏野和佳子

2009 年 16 巻 2 号 p. 2_1-2_2
発行日: 2009年
公開日: 2011/09/01

DOIhttps://doi.org/10.5715/jnlp.16.2_1

ジャーナルフリー

PDF形式でダウンロード (114K)

論文

コーパスに基づくがん用語集合の作成と評価

中川晋一, 内山将夫, 三角真, 島津明, 酒井善則

2009 年 16 巻 2 号 p. 2_3-2_44
発行日: 2009年
公開日: 2011/09/01

DOIhttps://doi.org/10.5715/jnlp.16.2_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

がん患者に対する情報提供の適正化のため，がん情報処理を可能にする言語基盤であるがん用語辞書を，医師による人手で作成した．権威あるコーパスとして国立がんセンターのウェブ文書を用い，延べ約 2 万 6 千語を収集し，用語候補の集合 Cc（Cancer Terms Candidate：語彙数 10199 語）を得た．10 種のがん説明用コンテンツを対象とした Cc の用語の再現率はそれぞれ約 95% 以上であった．次に一般語やがん医学用語との関係と用語集としての整合性から用語選択基準（T1：がんそのものを指す，T2：がんを想起させる用語，T3：T2 の関連語，T4：がんに関連しない語のうち，T3 までを採用する）を作成し，Cc に対して適用，93.7% が基準に合致し 690 語を削除，9509 語をがん用語 C として選択した．選択基準に従って作成した試験用ワードセットを医師に示すことで，用語選択基準を評価した．その結果，T1 と(T2, T3, T4)の 2 つに分割した場合と (T1, T2), (T3, T4) 分割した場合で一致係数 κ が約 0.6，T1, T2, (T3, T4) の 3 つに分割した場合は約 0.5 であり，選択基準を明示せずに単に用語選択を行った場合の κ 値 0.4 に比べて高値であったことから，本研究で提案するがんとの関連性に基づいた用語選択法の妥当性が示された．さらに，既存の専門用語選択アルゴリズムにより得られた用語集合 (HN) と本研究で得られた用語集合 (C) を比較したところ，HN での再現性は 80% 以上と高値だが，精度は約 60% であり，本研究のような人手による用語選択の必要性が示された．以上のことから，専門性の高い，がんに関するような用語集合を作成する場合，本研究で行った，信頼性の高いコーパスを用い，専門家の語感を信用して，中心的概念からの距離感を考慮した用語選択を行うことにより，少人数でも妥当性の高い専門用語集合の作成が可能であることが示された．

抄録全体を表示

PDF形式でダウンロード (1554K)
言語処理技術と教材作成の連携―データベース・ソフトウェアを用いた英語学習教材の自動作成―

神谷健一, 田中省作, 北尾謙治

2009 年 16 巻 2 号 p. 2_45-2_58
発行日: 2009年
公開日: 2011/09/01

DOIhttps://doi.org/10.5715/jnlp.16.2_45

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿ではデータベース・ソフトウェアの１つである FileMaker Pro による，英語学習教材の自動作成における言語処理技術と教材作成の連携可能性を提案する．著者は，実際の英語の授業でも利用しやすいプリント教材や簡易 E-learning 教材を出力できるツールを開発し，無料公開している．これらのツールでは GUI 環境での操作が可能であるため，パソコン利用スキルが限られる一般の英語教員にも利用しやすく，任意の英文素材から Phrase Reading を軸とした精読教材および Cloze テストを利用した学習教材を短時間で作成することができる.

抄録全体を表示

PDF形式でダウンロード (1890K)
Supervised Synonym Acquisition Using Distributional Features and Syntactic Patterns

Masato Hagiwara, Yasuhiro Ogawa, Katsuhiko Toyama

2009 年 16 巻 2 号 p. 2_59-2_83
発行日: 2009年
公開日: 2011/09/01

DOIhttps://doi.org/10.5715/jnlp.16.2_59

ジャーナルフリー

抄録を表示する抄録を非表示にする

Distributional similarity has been widely used to capture the semantic relatedness of words in many NLP tasks. However, parameters such as similarity measures must be manually tuned to make distributional similarity work effectively. To address this problem, we propose a novel approach to synonym identification based on supervised learning and distributional features, which correspond to the commonality of individual context types shared by word pairs. This approach also enables the integration with pattern-based features. In our experiment, we have built and compared eight synonym classifiers, and showed a drastic performance increase of over 60% on F-1 measure, compared to the conventional similarity-based classification. Distributional features that we have proposed are better in classifying synonyms than the conventional common features, while the pattern-based features have appeared almost redundant.

抄録全体を表示

PDF形式でダウンロード (203K)

J-STAGEへの登録はこちら（無料）