人工知能学会全国大会論文集
Online ISSN : 2758-7347
第34回 (2020)
セッションID: 3Rin4-26
会議情報

ユーザ生成コンテンツの高品質な自動翻訳に向けた言語現象の体系的分析
*藤井 諒三田 雅人阿部 香央莉塙 一晃森下 睦鈴木 潤乾 健太郎
著者情報
会議録・要旨集 フリー

詳細
抄録

ニューラル機械翻訳(NMT)の登場により、高品質かつ大規模な学習データを入手可能なニュース記事や、出現語彙が限定された旅行会話などの翻訳品質は著しく向上した。しかし、ソーシャル・ネットワーキング・サービス(SNS)に代表されるユーザ生成コンテンツ(UGC)を対象とした場合、現状のNMTでも十分な翻訳品質を担保するのは難しい。これは、タイポや誤変換・表層の意図的な改変を含む表記の揺れ・日々新たに生成される固有名詞やネットスラングといった従来の翻訳コーパスには稀有な言語現象の存在に起因すると考えられる。UGCを適切に自動翻訳できるようにすることは、機械翻訳システムを異文化・他言語交流といった場で真に使えるコミュニケーションツールとする上では必須の要件であり、次に取り組むべき大きな課題の一つと言える。そこで本研究では、UGCに含まれる様々な言語現象の体系的分類を行い、現象の有無のみが異なる評価データを作成することで、評価の比較による各現象の影響度測定を行う。これにより、それぞれの現象が翻訳の品質に与える影響のより適切な評価を実現し、対処を必要とする重要な言語現象を明らかにする。

著者関連情報
© 2020 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top