2021 年 28 巻 2 号 p. 632-650
本論文ではニューラル機械翻訳のための新たなサブワード分割法を提案する.従来法では対訳関係を考慮せずに各言語ごとにサブワード分割を学習するため,機械翻訳タスクに適したサブワード分割になるとは限らない.本研究は対訳コーパスを用い,原言語文と目的言語文のサブワードトークン数の差がより小さくなるサブワード分割法を提案する.提案法は対訳情報を用いるため,より機械翻訳タスクに適したサブワードが得られると考えられる.従来法と提案法を用いて翻訳性能を比較したところ,WAT ASPEC 英日・日英・英中・中英翻訳タスクと WMT14 英独・独英翻訳タスクにおいて,Transformer NMT モデルの性能が最大 0.81 BLEU ポイント改善した.