日本語の NLP タスクに対して有効な Data Augmentation 手法

高萩 恭介; 古宮 嘉那子; 新納 浩幸

doi:10.5715/jnlp.31.958

抄録

Data Augmentation は，教師あり学習におけるモデルの性能を改善させるために，訓練データを水増しする手法である．Data Augmentation は，Computer Vision の分野において広く研究・利用されているが，自然言語処理においては未発展であるといえる．本論文では，我々がこれまでに考案した日本語の自然言語処理タスクに用いることができる Data Augmentation の手法を二つ取り上げる．一つは，文に含まれる単語を，BERT の Masked Language Modeling を用いて別の単語に置換する手法である．もう一つは，文の係り受け関係が崩れないように文節の順序をシャッフルする手法である．これら 2 つの手法の概要や変換方法について示した後，各手法がどのようなタスクで効果を発揮するのかについて述べる．

著者関連情報

Licensed under CC BY 4.0
https://creativecommons.org/licenses/by/4.0/

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）