自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
文節間係り受け距離の統計的性質を用いた日本語文の係り受け解析
張 玉潔尾関 和彦
著者情報
ジャーナル フリー

1997 年 4 巻 2 号 p. 3-19

詳細
抄録
日本語における2文節間の係り受け頻度は, その距離に依存することが知られている.すなわち, 文中の文節はその直後の文節に係ることが最も多く, 文末の文節に係る場合を除いては, 距離が離れるにしたがってその頻度が減少する.この統計的性質は, 日本語文の係り受け解析においてしばしば用いられるヒューリスティクス: 「文中の文節は係り得る文節の中で最も近いものに係る」の根拠となっている.しかし, このヒューリスティクスは, 日本語に見られるこのような統計的性質の一部しか利用していない.したがって, 係り受け距離の頻度分布をもっと有効に利用することにより, 解析性能が向上する可能性がある.本研究では, ATR503文コーパスから抽出した係り受け距離の頻度分布に基づいて2文節間の係り受けペナルティ関数を定義し, 「総ペナルティ最小化法」を用いて係り受け解析実験を行なった.その結果を, 上のヒューリスティクスに基づく決定論的解析法による解析結果と比較したところ, かなりの解析性能向上が認められた. また, 係り文節を分類し, その種類別に抽出した係り受け頻度の情報を用いることにより, さらに解析性能を改善できることが明らかになった.
著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top