自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
二言語コーパスからの語彙知識獲得のための対訳辞書登録候補の選別
吉見 毅彦九津見 毅小谷 克則佐田 いち子井佐原 均
著者情報
ジャーナル フリー

2006 年 13 巻 1 号 p. 97-115

詳細
抄録

機械翻訳システムの翻訳品質を改善するためなどに必要な語彙知識を獲得するためには, 対訳コーパスにおいて二言語の表現を正しく対応付ける処理と, 対応付けられた表現対を辞書に登録するか否かを判定する選別処理の二つが必要である.従来, 対応付けに関する研究は数多く行なわれてきたが, 辞書登録候補の選別に関する研究はほとんど行なわれていない.本稿では, 従来あまり扱われてこなかった選別問題を採り上げ, この問題を機械学習によって解く方法を示す.学習に用いる素性として, 二つの表現の間で異なる部分と両者に共通する部分に着目し, 差分部分や共通部分を表現する手段として, 表記 (文字, 形態素), 品詞, 概念識別子を用いる.評価実験の結果, 最も高い選別性能 (F値) を示す表現方法は文字であることが明らかになった.

著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top