自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
一般論文
不要文削除によるデータ拡張に関する研究
大内 智仁田伏 正佳
著者情報
ジャーナル フリー

2021 年 28 巻 2 号 p. 350-379

詳細
抄録

近年インターネット上の情報量は指数関数的に増加している.そのため,自動要約システム技術は必要不可欠なものとなってくると思われる.自動要約システムを構築するには要約コーパスが必要となる.しかし,多量の要約コーパスを作成するには人手が必要となりコストがかかってしまう.そこで,本研究では自動要約システムにおけるデータ拡張として,記事に対して,最も重要度の低い文を除去する手法を提案する.本研究では,Pointer-Generator モデルにおいて提案手法の効果を検証した.また,本研究の比較対象として,文書分類において用いられたデータ拡張手法である EDA (Easy Data Augmentation Techniques) や,Luhn,LexRank を用いた手法で実験を行った.Pointer-Generator モデルで用いたコーパスは CNN/Daily Mail dataset であり,トータルで,287,226 記事存在する.本研究では, 287,226 記事の他に,57,000 記事,28,000 記事において比較実験した.結果は,EDA や Luhn,LexRank を用いた手法では拡張せずに元の記事だけで学習する手法(拡張なし手法)よりも悪くなることがあったが,提案手法は全ての記事数において拡張なし手法よりも良い結果となった.

著者関連情報
© 2021 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top