最大エントロピー法を用いた対訳単語対の抽出

佐藤 健吾; 斎藤 博昭

doi:10.5715/jnlp.9.101

抄録

機械翻訳などの多言語間自然言語処理で用いられる対訳辞書は現在, 人手によって作成されることが多い. しかし, 人手による作成には一貫性・網羅性などの点で限界があることから対訳コーパスから自動的に対訳辞書を作成しようとする研究が近年盛んに行われている. 本論文では, 最大エントロピー法を用いて対訳コーパス上に対訳関係の確率モデルを推定し, 自動的に対訳単語対を抽出する手法を提案する. 素性関数として共起情報を用いるモデルと品詞情報を用いるモデルを定義した. 共起情報により対訳関係にある単語の意味を制約し, 品詞情報により対訳関係にある単語の品詞を制約する. 本手法の有効性を示すために日英対訳コーパスを用いた対訳単語対の抽出実験を行い, 本論文で提案した手法が従来の手法よりも精度・再現率において優れた結果となり, また, テストコーパスによる実験では学習コーパスに出現しなかった単語対に関しても学習データに現れたものとほぼ同等の精度・再現率で抽出できることを示した.

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）