自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
一般論文(査読有)
日本語の NLP タスクに対して有効な Data Augmentation 手法
高萩 恭介古宮 嘉那子新納 浩幸
著者情報
キーワード: Data Augmentation, JGLUE, JSICK, BERT, RoBERTa
ジャーナル フリー

2024 年 31 巻 3 号 p. 958-983

詳細
抄録

Data Augmentation は,教師あり学習におけるモデルの性能を改善させるために,訓練データを水増しする手法である.Data Augmentation は,Computer Vision の分野において広く研究・利用されているが,自然言語処理においては未発展であるといえる.本論文では,我々がこれまでに考案した日本語の自然言語処理タスクに用いることができる Data Augmentation の手法を二つ取り上げる.一つは,文に含まれる単語を,BERT の Masked Language Modeling を用いて別の単語に置換する手法である.もう一つは,文の係り受け関係が崩れないように文節の順序をシャッフルする手法である.これら 2 つの手法の概要や変換方法について示した後,各手法がどのようなタスクで効果を発揮するのかについて述べる.

著者関連情報
© 2024 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top