自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
一般論文
日本語 Wikipedia の編集履歴に基づく入力誤りデータセットと訂正システムの構築
田中 佑村脇 有吾河原 大輔黒橋 禎夫
著者情報
ジャーナル フリー

2021 年 28 巻 4 号 p. 995-1033

詳細
抄録

文章執筆時に発生する誤字などの入力誤りは,解析誤りを誘発するため,入力誤り訂正を行うシステムは重要である.入力誤り訂正システムの実現には,学習データとして多量の入力誤りとその訂正ペアが必要であるが,公開されている十分なサイズを持つ日本語入力誤りデータセットは存在しない.これまで,Wikipedia の編集履歴からフランス語などで入力誤りデータセットが構築されてきた.先行研究の手法は,編集のあった単語の特定を必要とするため,単語分割が必要な日本語に直接の適用はできない.本研究では,Wikipedia の編集履歴から,単語単位ではなく,文字単位の編集を手がかりとして入力誤りの候補を取り出し,それらに対しフィルタリングすることで入力誤りを収集する.この手法で約 70 万文ペアの大規模なデータセットを構築し,さらに,構築手法を評価した.次に,得られたデータセットを用いて,入力誤り訂正システムを構築する.訂正システムは,事前学習 seq2seq モデルを用い,入力誤り訂正のみを学習するシステムと,漢字の読みの推定を同時に学習するシステムを構築した.前者と比較して,後者は漢字の変換誤りの訂正において精度が向上した.また,学習データに疑似入力誤りデータを追加して学習し,その精度変化を見た.最後に,他の校正システムと入力誤り認識精度の比較を行い,本研究のシステムの精度が高いことを確認した.

著者関連情報
© 2021 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top