自然言語処理では, 処理の過程で, さまざまな解釈の曖昧さが生じる. この曖昧さを解消するのに必要な知識を記述するため, 対象とする表現を部分的な表現の組に還元せず, 一体として捉える方法として, 言語表現とその解釈の関係を変数とクラスの組からなる構造規則として表現し, 学習用標本から半自動的に収集する方法を提案した. この方法は, パターン化された表現の変数部分を表すのに文法属性体系と意味属性体系を使用しており,
N個の変数を持つ表現パターンに対して, 一次元規則から
N次元規則までの規則と字面からなる例外規則を合わせて
N+1種類の構造規則が順に生成される点, また, 各規則は, その生成過程において, 各属性の意味的な包含関係を用いて容易に汎化される点に特徴がある. 本方式を「
Aの
Bの
C」の型の名詞句に対する名詞間の係り受け解析規則の生成に適用した結果では, 変数部分を意味属性で表現した構造規則の場合, 1万件の学習事例から, 一次元規則198件, 二次元規則1480件, 三次元規則136件が得られ, それを使用した係り受け解析では, 約86%の解析精度が得られることが分かった. また, 変数部分を文法属性で表した規則と意味属性で表した規則を併用する場合は, 解析精度は, 1~2%向上することが分かった.この値は, 2名詞間の結合強度に還元して評価する方法 (72%) より約15%高い. この種の名詞句では, 人間でも係り先の判定に迷うような事例が10%近く存在することを考慮すると, 得られた規則の精度は, 人間の解析能力にかなり近い値と言える.
抄録全体を表示