要素合成法を基本とした従来の機械翻訳方式の限界を突破する方法として, 非線形な言語表現の構造を意味のまとまる単位にパターン化した文型パターン翻訳方式が期待される. 本論文では, 重文と複文を対象に, この方式の実現に必要な文型パターン辞書を試作した. 具体的には, 100万件の日英対訳コーパスから2つ又は3つの述部を持つ重文と複文合計15万件を抽出し, 単語レベル (12.8万件), 句レベル (10.5万件), 節レベル (1.3万件) の3種類のグループからなる文型パターン辞書 (合計24.6万件, 異なり22.1万件収録) を作成した. 各文型パターンは, いずれも形態素解析によって得られる文法情報を用いて記述することとし, 対訳標本文に含まれる線形な表現要素を半自動的に変数化, 関数化することなどにより作成したものである. 従来, 大規模な文型パターン辞書の開発は, 文型パターン間の意味的排他性実現の困難性と膨大な開発コストが問題となるため, 適用対象を限定するなど小規模な実現例しか見られなかった. しかし, 今回の試作によって, ほぼすべての標本文 (99%) が多くの線形要素 (平均4~5カ所) を持つことが分かった. また, それらの要素を半自動的に関数化, 変数化を行うことにより, 文型パターンの開発コストは人手に頼る方法の約1/10に削減できた. これにより, 実験的検討に必要な規模の文型パターン辞書を構築することができた.
抄録全体を表示