自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
一般論文(査読有)
意味と表層の類似度を制御可能な言い換えによるデータ拡張
小笠 雄也梶原 智之荒瀬 由紀
著者情報
ジャーナル フリー

2024 年 31 巻 4 号 p. 1458-1486

詳細
抄録

表層が大きく異なる言い換えはデータ拡張に有益である一方,その生成は難しいことが知られている.本論文では,デコーダにサンプリングを適用した折り返し翻訳により生成する多様な疑似言い換えから表層が大きく異なる言い換えペアを抽出することで学習コーパスを構築し,所望の言い換えを生成可能なモデルを実現した.さらに意味および表層の類似度を指定するタグを入力文の先頭に付けるというシンプルな仕組みにより,これらの類似度を制御する.対照学習および事前学習済み言語モデルの pre-fine-tuning においてデータ拡張を行い,提案手法の有効性を確認した.さらに (1) 言い換えの適切な類似度は downstream task に大きく依存すること,(2) 様々な類似度の言い換えが混在すると downstream task に悪影響を与えることを明らかにした.

著者関連情報
© 2024 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top