主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
自然言語処理サービスの開発者が言語ごとにモデルを構築するのはコストが高いため,多言語モデルの活用が有望視されている.しかし,多言語モデルの事前訓練データに,英語以外の言語のデータは少しずつしか含まれていないため,英語以外の言語における性能は充分ではないという課題が残っている.そこで本研究では,日本語のテキスト分類タスクを対象に,事前訓練済み多言語文符号化器の性能改善に取り組む.提案手法では,入力文を事前訓練データ量が多い英語に機械翻訳した上で,元の日本語文とともに学習および推論するマルチソース入力を行う.日本語の感情極性分類およびニュース記事のカテゴリ分類における評価実験の結果,英訳文の併用によってテキスト分類の性能改善を確認した.