抄録
近年,スキャナの普及により,紙媒体の文書の電子化が急速に進んでいる.それらの電子化文書は一般的に,タグ付けやフォルダ分けによって管理されている.しかし,大量の文書に対して個々にタグ付けやフォルダ分けを行うことは,時間や労力の面から困難であり,スキャナにより自動で取り込まれた電子化文書に対し,OCR(光学文字認識)から得られるテキスト情報を用いて文書検索を行うシステムが有用であると考えられる.本稿では,代表的なトピックモデルの1つであるpLSIを用いることで,文書間の関係を抽出する手法について検討する.トピックモデルはこれまで,OCRの誤変換を含まない文書に対して多く適用されてきた.本稿ではまず,OCRの誤りがトピック推定に悪影響を与えることを示す.そして,提案する編集距離を用いた類似表記語句の集約手法を適用し,トピックの推定性能を向上させることを示す.