人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 4N3-GS-6-03
会議情報

機械翻訳を用いた多言語文符号化器のマルチソース入力によるテキスト分類
*梶川 怜恩山田 啓一朗梶原 智之二宮 崇
著者情報
会議録・要旨集 フリー

詳細
抄録

自然言語処理サービスの開発者が言語ごとにモデルを構築するのはコストが高いため,多言語モデルの活用が有望視されている.しかし,多言語モデルの事前訓練データに,英語以外の言語のデータは少しずつしか含まれていないため,英語以外の言語における性能は充分ではないという課題が残っている.そこで本研究では,日本語のテキスト分類タスクを対象に,事前訓練済み多言語文符号化器の性能改善に取り組む.提案手法では,入力文を事前訓練データ量が多い英語に機械翻訳した上で,元の日本語文とともに学習および推論するマルチソース入力を行う.日本語の感情極性分類およびニュース記事のカテゴリ分類における評価実験の結果,英訳文の併用によってテキスト分類の性能改善を確認した.

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top