自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
一般論文(査読有)
日英多段階難易度制御機械翻訳:評価データの作成および複数参照文に基づく学習の提案
谷 和樹田村 晃裕梶原 智之二宮 崇加藤 恒夫
著者情報
ジャーナル フリー

2024 年 31 巻 2 号 p. 456-478

詳細
抄録

本研究では,目的言語文の難易度を多段階で制御する日英機械翻訳(日英 Multi-Level Complexity-Controllable Machine Translation: 日英 MCMT)の実現を目指す.従来の MCMT の研究では英語とスペイン語の言語対を対象にしていたため,日英 MCMT 用の評価データセットは存在しない.そこで本研究では,多段階の難易度で書かれた英語ニュース記事集合である Newsela コーパスと日本語への人手翻訳によって日英 MCMT 用の評価データセットを構築する.また,MCMT は同じ原言語文に対して難易度に応じて異なる目的言語文を出力する必要があるが,従来の MCMT の学習手法は,難易度が付いた対訳文対の単位で学習を行っており,難易度が異なる同一内容の目的言語文間を対比させた学習ができない.そこで本研究では,学習対象の参照文と共に異なる難易度の参照文も使い,学習対象の参照文に対する損失が学習対象以外の難易度の参照文に対する損失よりも小さくなるように学習を行う手法を提案する.本研究で構築した評価データセットを用いた実験により,提案手法は従来手法のマルチタスクモデルより BLEU が 0.94 ポイント上回ることを確認した.

著者関連情報
© 2024 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top