機械翻訳を用いた多言語文符号化器のマルチソース入力によるテキスト分類

梶川 怜恩; 山田 啓一朗; 梶原 智之; 二宮 崇

doi:10.11517/pjsai.JSAI2024.0_4N3GS603

抄録

自然言語処理サービスの開発者が言語ごとにモデルを構築するのはコストが高いため，多言語モデルの活用が有望視されている．しかし，多言語モデルの事前訓練データに，英語以外の言語のデータは少しずつしか含まれていないため，英語以外の言語における性能は充分ではないという課題が残っている．そこで本研究では，日本語のテキスト分類タスクを対象に，事前訓練済み多言語文符号化器の性能改善に取り組む．提案手法では，入力文を事前訓練データ量が多い英語に機械翻訳した上で，元の日本語文とともに学習および推論するマルチソース入力を行う．日本語の感情極性分類およびニュース記事のカテゴリ分類における評価実験の結果，英訳文の併用によってテキスト分類の性能改善を確認した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）