抄録
本論文では, 機械学習の一手法であるサポートベクタマシンを用いて文対応付き対訳コーパスから対訳表現を抽出する手法を提案する. サポートベクタマシンは従来からある学習モデルに比べて汎化能力が高く過学習しにくいためにデータスパースネスに対して頑健であり, カーネル関数を用いることによって素性の依存関係を自動的に学習することができるという特徴を持つ.本手法では対訳モデルの素性として, 対訳辞書による素性, 語数による素性, 品詞による素性, 構成語による素性, 近傍に出現する語による素性を使用し, サポートベクタマシンに基づく対訳表現の対応度を用いて対訳表現を抽出する. 既存の手法は対訳表現の対応度の計算に単語の共起関係を利用しているためにデータスパースネスに陥りやすく, 低頻度の対訳表現の抽出は困難であるのに対して, 本手法は, 訓練コーパスによって対訳モデルをあらかじめ学習する必要があるが, 一旦モデルを学習してしまえば低頻度の対訳表現でも抽出が可能であるという特徴を持つ.