自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
22 巻, 2 号
選択された号の論文の3件中1~3を表示しています
巻頭言
論文
  • 東山 翔平, 関 和広, 上原 邦昭
    2015 年 22 巻 2 号 p. 77-105
    発行日: 2015/06/16
    公開日: 2015/09/16
    ジャーナル フリー
    近年,医療文書の電子化が進み,大規模化する医療データから有用な情報を抽出・活用する技術が重要となっている.特に,診療記録中の症状名や診断名などの用語を自動抽出する技術は,症例検索などを実現する上で必要不可欠である.機械学習に基づく用語抽出では,辞書などの語彙資源の利用が訓練データに含まれない用語の認識に有効である.しかし,診療記録では多様な構成語彙の組合せからなる複合語が使用されるため,単純なマッチングに基づく辞書の利用では検出できない用語が存在し,語彙資源利用の効果は限定的となる.そこで,本稿では,語彙資源を有効活用した用語抽出を提案する.資源活用の1点目として,資源中の用語に対して語彙制限を行うことで,用語抽出に真に有用な語彙の獲得を行う.2 点目として,資源から複合語の構成語彙である修飾語を獲得し,元の語彙に加えて獲得した修飾語を活用することで,テキスト中のより多くの用語を検出する拡張マッチングを行う.検出された用語の情報は機械学習の素性として用いる.NTCIR-10 MedNLP テストコレクションを用いた抽出実験の結果,単純な語彙資源の利用時と比較して適合率および再現率の向上を実現し,本手法の有効性を確認した.また,肯定・否定などのモダリティ属性の分類を含めた抽出では,従来手法に対して,本手法が最も高い精度を実現した.
  • 笹田 鉄郎, 森 信介, 山肩 洋子, 前田 浩邦, 河原 達也
    2015 年 22 巻 2 号 p. 107-131
    発行日: 2015/06/16
    公開日: 2015/09/16
    ジャーナル フリー
    自然言語処理において,単語認識(形態素解析や品詞推定など)の次に実用化可能な課題は,ある課題において重要な用語の認識であろう.この際の重要な用語は,一般に単語列であり,多くの応用においてそれらに種別がある.一般的な例は,新聞記事における情報抽出を主たる目的とした固有表現であり,人名や組織名,金額などの 7 つか 8 つの種別(固有表現クラス)が定義されている.この重要な用語の定義は,自然言語処理の課題に大きく依存する.我々はこの課題をレシピ(調理手順の文章)に対する用語抽出として,レシピ中に出現する重要な用語を定義し,実際にコーパスに対してアノテーションし,実用的な精度の自動認識器を構築する過程について述べる.その応用として,単純なキーワード照合を超える知的な検索や,映像と言語表現のマッチングによるシンボルグラウンディングを想定している.このような背景の下,本論文では,レシピ用語タグセットの定義と,実際に行ったアノテーションについて議論する.また,レシピ用語の自動認識の結果を提示し,必要となるアノテーション量の見通しを示す.
feedback
Top