統語的一貫性と非冗長性を重視した機械翻訳のための能動学習手法

三浦 明波; Graham Neubig; Michael Paul; 中村 哲

doi:10.5715/jnlp.24.463

抄録

能動学習は機械学習において，逐次的に選択されたデータに対してのみ正解ラベルを付与してモデルの更新を繰り返すことで，少量のコストで効率的に学習を行う枠組みである．この枠組みを機械翻訳に適用することで，人手翻訳のコストを抑えつつ高精度な翻訳モデルを学習可能である．機械翻訳のための能動学習では，人手翻訳の対象となる文またはフレーズをどのように選択するかが学習効率に大きな影響を与える要因となる．既存研究による代表的な手法として，原言語コーパスの単語 n-gram 頻度に基づき n-gram カバレッジを向上させる手法の有効性が知られている．この手法は一方で，フレーズの最大長が制限されることにより，句範疇の断片のみが提示されて，人手翻訳が困難になる場合がある．また，能動学習の過程で選択されるフレーズには，共通の部分単語列が繰り返し出現するため，単語数あたりの精度向上率を損なう問題も考えられる．本研究では原言語コーパスの句構造解析結果を用いて句範疇を保存しつつ，包含関係にある極大長のフレーズのみを人手翻訳の候補とするフレーズ選択手法を提案する．本研究の提案手法の有効性を調査するため，機械翻訳による擬似対訳を用いたシミュレーション実験および専門の翻訳者による人手翻訳と主観評価を用いた実験を実施した．その結果，提案手法によって従来よりも少ない単語数の翻訳で高い翻訳精度を達成できることや，人手翻訳時の対訳の品質向上に有効であることが示された．

著者関連情報

Licensed under CC BY 4.0
https://creativecommons.org/licenses/by/4.0/

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）