抄録
一般に,定期的に内容が改訂される文書の多くは,定型の下に一部の項目のみが変更されることが多く,旧版との変更点,相違点の自動検出が必要となる場合がある.本研究では,印刷物として提供された類似文書を比較して,変更点を検出する自動化アルゴリズムの構築を目的とする.その最も簡単な手法としてOCRを用いる手法が挙げられるが,現状のOCRの認識率では誤認識が多く,十分な比較結果を得ることは難しい.そこで本研究では,文書を画像として扱い,画像マッチングと最長一致系列の抽出に基づいて類似文書を比較する手法を提案し,その精度と処理時間について検討を行った.実験の結果,A4サイズ1枚で日本語約1500文字程度を含む文書を比較する際,実行時間として数十秒程度,検出精度として再現率100%の下で精度94%程度の検出率を得られた.