抄録
複合名詞は名詞を結合することによって数限りなく生成できるので, 全てを辞書に登録することは不可能である. したがって, 辞書に登録されている名詞の組み合わせとして複合名詞を解析する手法が必要である. そのためには, 複合名詞をそれを構成している名詞に分割し, 名詞間の係り受け構造を同定しなくてはならない. これらの処理は統語的な手係りが少ないために難しく, 何らかの意味的な情報が必要である. しかし, 大規模な意味的情報を人手で構築し保守することはコストが大きいため, 計算機によって自動的に知識を獲得することが望ましい. 本論文では, コーパスから自動的に抽出した名詞問の意味的共起情報を用いて複合名詞の構造を解析する方法を提案する. この方法では, 共起情報を統計的に処理して名詞問の意味的関係の強さを評価し, 係り受け関係の曖昧性解消に利用する. まず, 4文字漢字語16万語から意味クラスの共起データを抽出した. 抽出した共起データから統計的に名詞間の意味的関係の強さを計算する. そのための尺度として相互情報量を基にした評価尺度を提案する. この尺度と複合名詞の構造に関するヒューリスティクス, 機械可読辞書から得られる言語知識を用いて複合名詞を解析する. 評価のために新聞や用語集から抽出した漢字複合名詞を解析し, 平均語長5.5文字の漢字複合名詞を約78%の精度で解析できた.