抄録
機械翻訳システムの翻訳品質を改善するためなどに必要な語彙知識を獲得するためには, 対訳コーパスにおいて二言語の表現を正しく対応付ける処理と, 対応付けられた表現対を辞書に登録するか否かを判定する選別処理の二つが必要である.従来, 対応付けに関する研究は数多く行なわれてきたが, 辞書登録候補の選別に関する研究はほとんど行なわれていない.本稿では, 従来あまり扱われてこなかった選別問題を採り上げ, この問題を機械学習によって解く方法を示す.学習に用いる素性として, 二つの表現の間で異なる部分と両者に共通する部分に着目し, 差分部分や共通部分を表現する手段として, 表記 (文字, 形態素), 品詞, 概念識別子を用いる.評価実験の結果, 最も高い選別性能 (F値) を示す表現方法は文字であることが明らかになった.