多数の接続節を含む日本語長文をそのまま係り受け解析することは大変困難であることが知られている. そのため, 係り受け解析の補助手段として, 文をより単純で短い文に分割することが研究されている. 従来の方法は, 分割パターンや分割規則を人手で作成しなければならないという問題がある. 本論文では, 決定木を用いて, 分割点を推定するためのパターンをコーパスから自動的に獲得する方法を提案する. この方法によれば, 学習データ中に現われる言語現象とその出現頻度に応じて, 最適分割パターンとその適用順序が自動的に決定される. EDRコーパスを用いて, 分割パターンの自動抽出と, それを用いた分割点推定の実験を行なった. 400文の評価データに対し, 84%の適合率と再現率, また77%の文正解率が得られた. さらに, 決定木を生成する過程で枝苅りを行うことにより, 決定木の分割精度を保ちながら, その節点数を大きく削減できることが確かめられた.
抄録全体を表示