日本語 Wikipedia の編集履歴に基づく入力誤りデータセットと訂正システムの構築

田中 佑; 村脇 有吾; 河原 大輔; 黒橋 禎夫

doi:10.5715/jnlp.28.995

抄録

文章執筆時に発生する誤字などの入力誤りは，解析誤りを誘発するため，入力誤り訂正を行うシステムは重要である．入力誤り訂正システムの実現には，学習データとして多量の入力誤りとその訂正ペアが必要であるが，公開されている十分なサイズを持つ日本語入力誤りデータセットは存在しない．これまで，Wikipedia の編集履歴からフランス語などで入力誤りデータセットが構築されてきた．先行研究の手法は，編集のあった単語の特定を必要とするため，単語分割が必要な日本語に直接の適用はできない．本研究では，Wikipedia の編集履歴から，単語単位ではなく，文字単位の編集を手がかりとして入力誤りの候補を取り出し，それらに対しフィルタリングすることで入力誤りを収集する．この手法で約 70 万文ペアの大規模なデータセットを構築し，さらに，構築手法を評価した．次に，得られたデータセットを用いて，入力誤り訂正システムを構築する．訂正システムは，事前学習 seq2seq モデルを用い，入力誤り訂正のみを学習するシステムと，漢字の読みの推定を同時に学習するシステムを構築した．前者と比較して，後者は漢字の変換誤りの訂正において精度が向上した．また，学習データに疑似入力誤りデータを追加して学習し，その精度変化を見た．最後に，他の校正システムと入力誤り認識精度の比較を行い，本研究のシステムの精度が高いことを確認した．

著者関連情報

Licensed under CC BY 4.0
https://creativecommons.org/licenses/by/4.0/

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）