2022 年 29 巻 2 号 p. 542-586
ニューラル文法誤り訂正では,データ拡張によって学習データの不足を補う手法が活発に研究されている.本研究では,既存のデータ拡張手法が,より良いデータ拡張を行い性能向上を目指す上で重要な要素として,(1) 誤りの多様性が訂正性能に寄与すること,(2) 特定の種類の誤り生成がその種類の誤り訂正性能に寄与すること,(3) データ拡張に用いるコーパスの大きさが訂正性能に寄与することの 3 点が仮定されている.本研究では,これらの仮定の妥当性を検証するため,多様な文法カテゴリでの誤り生成規則を組み合わせる手法を提案し,生成する誤りの種類を変えて誤り訂正モデルを学習することで,比較検証を行う.結果として,仮定 (1) (2) は正しいが,一方で,仮定 (3) においては,コーパスの規模ではなく,パラメータの更新回数と誤りの生成回数が影響することが明らかになった.さらに,提案手法は,学習者コーパスを用いない教師なし設定でも高い性能のモデルを学習でき,学習者コーパスを用いた場合でも,既存の手法と同程度に高性能なモデルを学習できることが明らかになった.折り返し翻訳・逆翻訳によるデータ拡張手法との比較を通じて,また,ルールによる誤り生成とこれらの手法を用いたモデルでは,訂正において得意な誤り種類が異なることが判明した.