自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
最大エントロピーモデルに基づく形態素解析
未知語の問題の解決策
内元 清貴関根 聡井佐原 均
著者情報
ジャーナル フリー

2001 年 8 巻 1 号 p. 127-141

詳細
抄録

形態素解析は日本語解析の重要な基本技術の一つとして認識されている. 形態素解析の形態素とは, 単語や接辞など, 文法上, 最小の単位となる要素のことであり, 形態素解析とは, 与えられた文を形態素の並びに分解し, それぞれの形態素に対し文法的属性 (品詞や活用など) を決定する処理のことである. 近年, 形態素解析において重要な課題となっているのは, 辞書に登録されていない, あるいは学習コーパスに現れないが形態素となり得る単語 (未知語) をどのように扱うかということである. この未知語の問題に対処するため, これまで大きく二つの方法がとられてきた. 一つは未知語を自動獲得し辞書に登録する方法であり, もう一つは未知語でも解析できるようなモデルを作成する方法である. ここで, 前者の方法で獲得した単語を辞書に登録し, 後者のモデルにその辞書を利用できるような仕組みを取り入れることができれば, 両者の利点を生かすことができると考えられる. 本論文では, 最大エントロピー (ME) モデルに基づく形態素解析の手法を提案する. この手法では, 辞書の情報を学習する機構を容易に組み込めるだけでなく, 字種や字種変化などの情報を用いてコーパスから未知語の性質を学習することもできる. 我々はこの手法により未知語の問題が克服される可能性が高いと考えている. 京大コーパスを用いた実験では, 再現率95.80%, 適合率95.09%の精度が得られた.

著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top