抄録
本論文では, 括弧付きコーパスから確率文脈自由文法を効率良く自動的に抽出する方法を提案する. 文法規則の抽出は, 日本語の主辞が句の一番最後の要素であるという特徴を利用して, 括弧付けによる構文構造の内部ノードに適切な非終端記号を与えることによって行う. また, 文法規則の確率は規則のコーパスにおける出現頻度から推定する. さらに, 文法サイズの縮小と解析木数の抑制という2つの観点から, 抽出した文法を改良するいくつかの方法を提案する. 文法サイズの縮小は, 文法に含まれる冗長な規則を自動的に削除することによって行う. 解析木数の抑制は, (1) 同一品詞列に対して右下がりの二分木のみを生成し, (2) “記号”と“助詞”の2つの品詞を細分化し, (3) 法や様態を表わす助動詞に対する構造を統一することにより行う. 最後に, 本手法の評価実験を行った. 約180,000の日本語文から確率文脈自由文法の抽出およびその改良を行ったところ, 2, 219の文法規則を抽出することができた. 抽出された文法を用いて20,000文のテスト例文を統語解析したところ, 受理率が約92%となり, 適用範囲の広い文法が得られたことを確認した. また, 生成確率の上位30位の解析木の評価を行ったところ, 括弧付けの再現率が約62%, 括弧付けの適合率が約74%, 文の正解率が約29%という結果が得られた.