自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
一般論文(査読有)
多言語雑音除去自己符号化器による教師なし品質推定
西原 哲郎岩本 裕司吉仲 真人梶原 智之荒瀬 由紀二宮 崇
著者情報
キーワード: 品質推定, 機械翻訳
ジャーナル フリー

2022 年 29 巻 2 号 p. 669-687

詳細
抄録

品質推定の教師あり学習は,言語対ごとに翻訳品質ラベルを人手で付与する必要があり,コストが高い.そこで,対訳コーパスのみで訓練された機械翻訳器を用いる教師なし品質推定が研究されているが,既存手法は少資源言語対では性能が低下する.本研究では,事前訓練された多言語雑音除去自己符号化器を活用することで,大規模な対訳コーパスが存在しない言語対にも適用可能な教師なし品質推定を提案する.具体的には,多言語雑音除去自己符号化器を対訳コーパスを用いて再訓練することで多言語機械翻訳器を構築する.そして,評価対象の機械翻訳器による出力文を原文から forced-decoding する際の文生成確率によって翻訳品質を推定する.大規模な単言語コーパスにより事前訓練された多言語雑音除去自己符号化器は言語間の特性を捉えられるため,提案手法では少資源または対訳コーパスが存在しない言語対においても品質推定が可能となる.WMT20 の品質推定タスクにおける評価の結果,提案手法は 6 言語対のうち 5 言語対について,ブラックボックス設定における教師なし品質推定の最高性能を達成した.詳細な分析の結果,ゼロショット設定の品質推定においても提案手法は良好な性能を示すことが明らかとなった.

著者関連情報
© 2022 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top