自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
最大エントロピ-モデルと書き換え規則に基づく固有表現抽出
内元 清貴馬 青村田 真樹小作 浩美内山 将夫井佐原 均
著者情報
ジャーナル フリー

2000 年 7 巻 2 号 p. 63-90

詳細
抄録

本論文では, ME (最大エントロピー) モデルと書き換え規則を用いて固有表現を抽出する手法について述べる. 固有表現の定義はIREX固有表現抽出タスク (IREX-NE) の定義に基づくものとする. その定義によると, 固有表現には一つあるいは複数の形態素からなるもの, 形態素単位より短い部分文字列を含むものの2種類がある. 複数の形態素からなる固有表現は, 固有表現の始まり, 中間, 終りなどを表すラベルを40個用意し, 各々の形態素に対し付与すべきラベルを推定することによって抽出する. ラベルの推定にはMEモデルを用いる. このMEモデルでは学習コーパスで観測される素性と各々の形態素に付与すべきラベルとの関係を学習する. ここで素性とはラベル付与の手がかりとなる情報のことであり, 我々の場合, 着目している形態素を含む前後2形態素ずつ合計5形態素に関する見出し語, 品詞の情報のことである. 一方, 形態素単位より短い部分文字列を含む固有表現は, MEモデルを用いてラベルを決めた後に書き換え規則を適用することによって抽出する. 書き換え規則は学習コーパスに対するシステムの解析結果とコーパスの正解データとの差異を調べることによって自動獲得することができる. 本論文ではIREX-NE本試験に用いられたデータに対し我々の手法を適用した結果を示し, さらにいくつかの比較実験から書き換え規則と精度, 素性と精度, 学習コーパスの量と精度の関係を明らかにする.

著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top