2021 年 28 巻 4 号 p. 995-1033
文章執筆時に発生する誤字などの入力誤りは,解析誤りを誘発するため,入力誤り訂正を行うシステムは重要である.入力誤り訂正システムの実現には,学習データとして多量の入力誤りとその訂正ペアが必要であるが,公開されている十分なサイズを持つ日本語入力誤りデータセットは存在しない.これまで,Wikipedia の編集履歴からフランス語などで入力誤りデータセットが構築されてきた.先行研究の手法は,編集のあった単語の特定を必要とするため,単語分割が必要な日本語に直接の適用はできない.本研究では,Wikipedia の編集履歴から,単語単位ではなく,文字単位の編集を手がかりとして入力誤りの候補を取り出し,それらに対しフィルタリングすることで入力誤りを収集する.この手法で約 70 万文ペアの大規模なデータセットを構築し,さらに,構築手法を評価した.次に,得られたデータセットを用いて,入力誤り訂正システムを構築する.訂正システムは,事前学習 seq2seq モデルを用い,入力誤り訂正のみを学習するシステムと,漢字の読みの推定を同時に学習するシステムを構築した.前者と比較して,後者は漢字の変換誤りの訂正において精度が向上した.また,学習データに疑似入力誤りデータを追加して学習し,その精度変化を見た.最後に,他の校正システムと入力誤り認識精度の比較を行い,本研究のシステムの精度が高いことを確認した.