2024 年 31 巻 2 号 p. 456-478
本研究では,目的言語文の難易度を多段階で制御する日英機械翻訳(日英 Multi-Level Complexity-Controllable Machine Translation: 日英 MCMT)の実現を目指す.従来の MCMT の研究では英語とスペイン語の言語対を対象にしていたため,日英 MCMT 用の評価データセットは存在しない.そこで本研究では,多段階の難易度で書かれた英語ニュース記事集合である Newsela コーパスと日本語への人手翻訳によって日英 MCMT 用の評価データセットを構築する.また,MCMT は同じ原言語文に対して難易度に応じて異なる目的言語文を出力する必要があるが,従来の MCMT の学習手法は,難易度が付いた対訳文対の単位で学習を行っており,難易度が異なる同一内容の目的言語文間を対比させた学習ができない.そこで本研究では,学習対象の参照文と共に異なる難易度の参照文も使い,学習対象の参照文に対する損失が学習対象以外の難易度の参照文に対する損失よりも小さくなるように学習を行う手法を提案する.本研究で構築した評価データセットを用いた実験により,提案手法は従来手法のマルチタスクモデルより BLEU が 0.94 ポイント上回ることを確認した.