自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
後方文脈を考慮した係り受けモデル
内元 清貴村田 真樹関根 聡井佐原 均
著者情報
ジャーナル フリー

2000 年 7 巻 5 号 p. 3-17

詳細
抄録

係り受け解析は日本語解析の重要な基本技術の一つとして認識されている. 依存文法に基づく日本語係り受け解析では, 文を文節に分割した後, それぞれの文節がどの文節に係りやすいかを表す係り受け行列を作成し, 一文全体が最適な係り受け関係になるようにそれぞれの係り受けを決定する. 本論文ではそのうち, 係り受け行列の各要素の値を計算するためのモデルについて述べる. アプローチとしては, 主にルールベースによる方法と統計的手法の二つのものがあるが, 我々は利用可能なコーパスが増加してきたこと, 規則の変更に伴うコストなどを考慮して, 統計的手法をとっている. 統計的手法では行列の各要素の値は確率値として計算される. これまでよく用いられていたモデル (旧モデル) では, その確率値を計算する際に, 着目している二つの文節が係るか係らないかということのみを考慮していた. 本論文では, 着目している二つの文節 (前文節と後文節) だけを考慮するのではなく, 前文節と前文節より文末側のすべての文節との関係 (後方文脈) を考慮するモデルを提案する. このモデルをME (最大エントロピー) に基づくモデルとして実装した場合, 旧モデルを同じくMEに基づくモデルとして実装した場合に比べて, 京大コーパスに対する実験で, 全く同じ素性を用いているにもかかわらず係り受け単位で1%程度高い精度 (88%) が得られた.

著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top