人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 3Win5-41
会議情報

医学論文を対象とした日本語逐次文分類データセットの構築と性能評価
*山内 一礼桂井 麻里衣
著者情報
会議録・要旨集 フリー

詳細
抄録

論文抄録の逐次文分類(SSC)は,情報検索や抽出要約の基盤技術として注目されている.しかし,先行研究では,英語の抄録のみを用いて学習データセットを構築しており,日本語の論文の抄録にSSCを適用することは困難であった.そこで我々は,日本語の医学論文の抄録からなる新しいSSCデータセットを作成した.このデータセットを用いて,階層的双方向LSTMベースのアーキテクチャを訓練させた.さらに,既存の英語データセットを利用する方法として,大規模言語モデルによるデータ拡張や,英語と日本語のデータを直接学習に利用する方法を提案した.さらに,論文特有の表現の認識を強化する手法を導入した.その結果,日本語論文を対象としたSSCにおいて,約92%の精度,約88%のmacro-F1スコアを達成した.

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top