主催: 一般社団法人 人工知能学会
会議名: 2025年度人工知能学会全国大会(第39回)
回次: 39
開催地: 大阪国際会議場+オンライン
開催日: 2025/05/27 - 2025/05/30
論文抄録の逐次文分類(SSC)は,情報検索や抽出要約の基盤技術として注目されている.しかし,先行研究では,英語の抄録のみを用いて学習データセットを構築しており,日本語の論文の抄録にSSCを適用することは困難であった.そこで我々は,日本語の医学論文の抄録からなる新しいSSCデータセットを作成した.このデータセットを用いて,階層的双方向LSTMベースのアーキテクチャを訓練させた.さらに,既存の英語データセットを利用する方法として,大規模言語モデルによるデータ拡張や,英語と日本語のデータを直接学習に利用する方法を提案した.さらに,論文特有の表現の認識を強化する手法を導入した.その結果,日本語論文を対象としたSSCにおいて,約92%の精度,約88%のmacro-F1スコアを達成した.