日本語の重文と複文 (但し, 述部を2つ又は3つ持つものに限る) に対して文法レベルで記述された22.1万件の文型パターンを対象に, その被覆率特性を調べ, 文型パターン方式の問題点と可能性について検討した.機械翻訳において対訳文型パターンを使用した翻訳方式は, 文型パターンに適合した入力文に対して品質の良い訳文が生成できるため, 古くから着目されてきた.しかし, 被覆率を上げるには, 大量の文型パターンが必要なこと, また, 汎化を行えば, それにつれて意味的な排他性が失われ副作用が増大することが大きな問題であった.そこで, 本稿では, 単語レベル, 句レベル, 節レベルの文型パターン辞書 (それぞれ12.1万件, 8.8万件, 1.1万件で, いずれも文法レベルで記述されている) を対象に被覆率などの特性を評価した.評価パラメータとしては, 「任意の入力文に対して適合する文型パターンの有無」を表す「再現率」 (「文型再現率」, 「文型一致率」の2種) と「適合した文型パターンの意味的な正しさ」を表す「意味適合率」 (「適合文型意味正解率」, 「適合文型正解含有率」の2種) の4種を定め, それらを使用した.その結果によれば, 「文型再現率」は, 単語レベル, 句レベル, 節レベルの順に70%, 89%, 78%で, いずれもかなり高い値を示すが, 入力文に対して多数の意味的に不適切な文型パターン (単語レベルで14件, 句レベルで165件) が適合してしまい, 適合した文型パターンの中に意味的に正しいものが含まれる割合は, 単語レベルで21%にとどまっていることなどが分かった.これらの結果に基づき, 「再現率」と「意味適合率」を向上させる方法について検討した結果では, 「再現率」は, 「任意要素」や時制, 相, 様相の記述法に大きく依存することが分かった.また, 「意味適合率」の向上を図るには, 変数に対する強力な意味的制約条件の付与や「原文任意要素」の指定基準の見直しなどが必要であることが分かった.
抄録全体を表示