ユーザ生成コンテンツの高品質な自動翻訳に向けた言語現象の体系的分析

藤井 諒; 三田 雅人; 阿部 香央莉; 塙 一晃; 森下 睦; 鈴木 潤; 乾 健太郎

doi:10.11517/pjsai.JSAI2020.0_3Rin426

抄録

ニューラル機械翻訳(NMT)の登場により、高品質かつ大規模な学習データを入手可能なニュース記事や、出現語彙が限定された旅行会話などの翻訳品質は著しく向上した。しかし、ソーシャル・ネットワーキング・サービス(SNS)に代表されるユーザ生成コンテンツ(UGC)を対象とした場合、現状のNMTでも十分な翻訳品質を担保するのは難しい。これは、タイポや誤変換・表層の意図的な改変を含む表記の揺れ・日々新たに生成される固有名詞やネットスラングといった従来の翻訳コーパスには稀有な言語現象の存在に起因すると考えられる。UGCを適切に自動翻訳できるようにすることは、機械翻訳システムを異文化・他言語交流といった場で真に使えるコミュニケーションツールとする上では必須の要件であり、次に取り組むべき大きな課題の一つと言える。そこで本研究では、UGCに含まれる様々な言語現象の体系的分類を行い、現象の有無のみが異なる評価データを作成することで、評価の比較による各現象の影響度測定を行う。これにより、それぞれの現象が翻訳の品質に与える影響のより適切な評価を実現し、対処を必要とする重要な言語現象を明らかにする。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）