2024 年 31 巻 4 号 p. 1458-1486
表層が大きく異なる言い換えはデータ拡張に有益である一方,その生成は難しいことが知られている.本論文では,デコーダにサンプリングを適用した折り返し翻訳により生成する多様な疑似言い換えから表層が大きく異なる言い換えペアを抽出することで学習コーパスを構築し,所望の言い換えを生成可能なモデルを実現した.さらに意味および表層の類似度を指定するタグを入力文の先頭に付けるというシンプルな仕組みにより,これらの類似度を制御する.対照学習および事前学習済み言語モデルの pre-fine-tuning においてデータ拡張を行い,提案手法の有効性を確認した.さらに (1) 言い換えの適切な類似度は downstream task に大きく依存すること,(2) 様々な類似度の言い換えが混在すると downstream task に悪影響を与えることを明らかにした.