自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
一般論文
機械翻訳モデルの頑健性評価に向けた言語現象毎データセットの構築と分析
藤井 諒三田 雅人阿部 香央莉塙 一晃森下 睦鈴木 潤乾 健太郎
著者情報
ジャーナル フリー

2021 年 28 巻 2 号 p. 450-478

詳細
抄録

ニューラル機械翻訳 (NMT) の登場により,ニュース記事など文体の整った入力に対する翻訳の品質は著しく向上してきた.しかし,ソーシャル・ネットワーキング・サービス (SNS) に代表されるユーザ生成コンテンツ (UGC) を対象とした NMT の翻訳には依然として多くの課題が残されている.異文化・多言語交流の促進に向けた機械翻訳システムの活用には,そうした特異な入力を正確に扱うことのできる翻訳モデルの構築が不可欠である.近年では,UGC における翻訳品質の向上に向けたコンペティションが開催されるなどその重要性は広く認知されている.一方で,UGC に起因するどのような要因が機械翻訳システムの出力に悪影響を及ぼすのかは明らかでなく,偏在するユーザコンテンツの翻訳に向けた確かな方向性は依然として定まっていない.そこで本研究では,言語現象に着目した日英機械翻訳システムの頑健性測定データセット PheMT を提案する.特定の言語現象を含む文に特化したデータセットにより,当該表現の翻訳正解率,および正規化に基づく翻訳品質の差分を用いた精緻なエラー分析を可能にする.構築したデータセットを用いた評価により,広く商用に利用される機械翻訳システムを含む,最先端の NMT モデルにおいても十分に扱えない,対処すべき言語現象の存在を明らかにする.

著者関連情報
© 2021 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top