自然言語処理

巻頭言

言語処理学会の次の 20 年の第一歩

隅田英一郎

2015 年22 巻2 号 p. 75
発行日: 2015/06/16
公開日: 2015/09/16

DOIhttps://doi.org/10.5715/jnlp.22.75

ジャーナルフリー

PDF形式でダウンロード (92K)

論文

医療用語資源の語彙拡張と診療情報抽出への応用

東山翔平, 関和広, 上原邦昭

2015 年22 巻2 号 p. 77-105
発行日: 2015/06/16
公開日: 2015/09/16

DOIhttps://doi.org/10.5715/jnlp.22.77

ジャーナルフリー

抄録を表示する抄録を非表示にする

近年，医療文書の電子化が進み，大規模化する医療データから有用な情報を抽出・活用する技術が重要となっている．特に，診療記録中の症状名や診断名などの用語を自動抽出する技術は，症例検索などを実現する上で必要不可欠である．機械学習に基づく用語抽出では，辞書などの語彙資源の利用が訓練データに含まれない用語の認識に有効である．しかし，診療記録では多様な構成語彙の組合せからなる複合語が使用されるため，単純なマッチングに基づく辞書の利用では検出できない用語が存在し，語彙資源利用の効果は限定的となる．そこで，本稿では，語彙資源を有効活用した用語抽出を提案する．資源活用の1点目として，資源中の用語に対して語彙制限を行うことで，用語抽出に真に有用な語彙の獲得を行う．2 点目として，資源から複合語の構成語彙である修飾語を獲得し，元の語彙に加えて獲得した修飾語を活用することで，テキスト中のより多くの用語を検出する拡張マッチングを行う．検出された用語の情報は機械学習の素性として用いる．NTCIR-10 MedNLP テストコレクションを用いた抽出実験の結果，単純な語彙資源の利用時と比較して適合率および再現率の向上を実現し，本手法の有効性を確認した．また，肯定・否定などのモダリティ属性の分類を含めた抽出では，従来手法に対して，本手法が最も高い精度を実現した．

抄録全体を表示

PDF形式でダウンロード (534K)
レシピ用語の定義とその自動認識のためのタグ付与コーパスの構築

笹田鉄郎, 森信介, 山肩洋子, 前田浩邦, 河原達也

2015 年22 巻2 号 p. 107-131
発行日: 2015/06/16
公開日: 2015/09/16

DOIhttps://doi.org/10.5715/jnlp.22.107

ジャーナルフリー

抄録を表示する抄録を非表示にする

自然言語処理において，単語認識（形態素解析や品詞推定など）の次に実用化可能な課題は，ある課題において重要な用語の認識であろう．この際の重要な用語は，一般に単語列であり，多くの応用においてそれらに種別がある．一般的な例は，新聞記事における情報抽出を主たる目的とした固有表現であり，人名や組織名，金額などの 7 つか 8 つの種別（固有表現クラス）が定義されている．この重要な用語の定義は，自然言語処理の課題に大きく依存する．我々はこの課題をレシピ（調理手順の文章）に対する用語抽出として，レシピ中に出現する重要な用語を定義し，実際にコーパスに対してアノテーションし，実用的な精度の自動認識器を構築する過程について述べる．その応用として，単純なキーワード照合を超える知的な検索や，映像と言語表現のマッチングによるシンボルグラウンディングを想定している．このような背景の下，本論文では，レシピ用語タグセットの定義と，実際に行ったアノテーションについて議論する．また，レシピ用語の自動認識の結果を提示し，必要となるアノテーション量の見通しを示す．

抄録全体を表示

PDF形式でダウンロード (1121K)

J-STAGEへの登録はこちら（無料）