自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
論文
素性空間拡張法に基づくフレーズベース統計翻訳のマルチドメイン適応
今村 賢治隅田 英一郎
著者情報
ジャーナル フリー

2017 年 24 巻 4 号 p. 597-618

詳細
抄録

ドメイン適応は,機械翻訳を実用に使用するときの大きな課題の一つである.本稿では,複数ドメインを前提とした,統計翻訳の適応方式を提案する.本稿の方式は,カバレッジが広い(未知語が少ない)コーパス結合モデルと,素性関数の精度がよい単独ドメインモデルを併用する.これらを,機械学習のドメイン適応に用いられている素性空間拡張法の考え方で結合する.従来の機械翻訳における素性空間拡張法は,単一のモデルを用いていたが,本稿の提案方式は,複数のモデルを用いることにより,両者の利点を活かすことが特徴である.実験では,単独ドメインモデルに比べ,翻訳品質が向上または同等を保持した.提案法は,当該ドメインの訓練コーパスが小規模である場合に高い効果を持ち,100 万文規模の大規模コーパスを持つドメインへの適応に使用しても,翻訳品質を下げることなく,ドメインによっては品質向上の効果がある.基本的な対数線形モデルでも,モデルの選択と設定を適切に行うことで,最先端品質の適応方式が実現できることを示す.

著者関連情報
© 2017 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top