日本知能情報ファジィ学会 ファジィ システム シンポジウム 講演論文集
第28回ファジィシステムシンポジウム
会議情報

メイン
可視化に基づくOCR文書検索支援に関する検討
田村 一樹吉川 大弘古橋 武鈴木 誠
著者情報
会議録・要旨集 オープンアクセス

p. 574-579

詳細
抄録
近年,スキャナの普及により,紙媒体の文書の電子化が急速に進んでいる.それらの電子化文書は一般的に,タグ付けやフォルダ分けによって管理されている.しかし,大量の文書に対して個々にタグ付けやフォルダ分けを行うことは,時間や労力の面から困難であり,スキャナにより自動で取り込まれた電子化文書に対し,OCR(光学文字認識)から得られるテキスト情報を用いて文書検索を行うシステムが有用であると考えられる.本稿では,代表的なトピックモデルの1つであるpLSIを用いることで,文書間の関係を抽出する手法について検討する.トピックモデルはこれまで,OCRの誤変換を含まない文書に対して多く適用されてきた.本稿ではまず,OCRの誤りがトピック推定に悪影響を与えることを示す.そして,提案する編集距離を用いた類似表記語句の集約手法を適用し,トピックの推定性能を向上させることを示す.
著者関連情報
© 2012 日本知能情報ファジィ学会
前の記事 次の記事
feedback
Top