複合名詞は文書の内容を凝縮できる程の情報を担うことができるため重要語となりやすく, しばしば文書内容を理解する上での鍵となる. このため, 複合名詞解析 (=その構成要素間の掛かり受け解析) は, 機械翻訳にとどまらず, 情報抽出や情報検索の高度化にも貢献すると期待されている. しかし, 複合名詞は単なる名詞の連鎖に過ぎないため構文上の手掛かりが無く, 人手で構成したルールや, シソーラスに記述された概念の共起尤度等を用いて解析する方法が提案されてきた. しかし, 新聞記事などの未登録語が頻出する開いた大規模テキストを扱う場合は想定されてこなかったため, そのような場合には頑健性の点で問題が生じる. 本論文は, 大量の電子化文書が高速に処理可能な昨今の状況を念頭に置き, シソーラス等の予め固定されたデータを用いるのではなく, 文書中から直接文字列レベルの共起情報を抽出するだけで, 高い精度で複合名詞解析が可能なことを示す. まず, 与えられた複合名詞を暫定的に形態素解析し, 得られた構成単語の共起情報を複数のテンプレートを用いて抽出する. 共起情報を抽出する段階で, 語の出現状況から, 複合名詞内の短い複合名詞や, 誤って過分割された略称等の未登録語を検出すると同時に, これらの共起情報を抽出することにより, 未登録語に対する頑健性が達成される. これに加えて, 共起情報が不足する場合のヒューリスティクスに関して検討を加え, 文書から直接得られる共起情報と若干のルールを併用することにより, 高精度な複合名詞解析が達成できた. 新聞記事から抽出した長さ5, 6, 7, 8の複合名詞各100個を対象に実験を行った結果, 新聞1年分を用いて, それぞれ90, 86, 84, 84個の正解が得られた.
抄録全体を表示