2012 年 2012 巻 KST-16 号 p. 02-
一シートが一文書に相当し、複数のシートから成る表形式ファイル群を全文検索すると、当該検索語を含んだものが多数抽出される。これら複数の表形式ファイルは都度開かないと、目的文書が確認できない。精度高く検索するには、業務経験による鑑が必要となる。経験に関わらず、より高い精度で目的文書に到達できることが望まれる。本研究では、表構造の接点情報を解析・行列化して雛型文書行列との類似度でメタデータを付与、かつキーワード抽出した情報もメタデータとして複合的に用いて、目的文書をより高い精度で検索できるようにした。