抄録
近年、共通の仕様を定めることでデータの相互運用性を高め、一般に普及させるためのXML形式が多く見られるようになってきた。OCRを使用したドキュメント管理システムは、既に多くの製品が存在し、運用されている。しかし、これらは動作するプラットフォームが限られていることや、データの詳細仕様が明らかでないこと、そのデータを利用した新たなアプリケーション開発が第三者には困難であることが問題として挙げられる。また、画像から文字列への全置き換えを前提としているものが多く、認識結果を確認・訂正する作業が作業者にとって大きな負担となっている。そこで、ドキュメント画像のOCR結果を仕様の明らかなXML形式で保存し、それを文書検索に利用するためのXML定義の提案を行う。