抄録
大規模データに対する高速な文字列検索は接尾辞配列 (SA) を用いて実現できるが, SAには多くの容量が必要になってしまう. SAを圧縮する様々な方法が提案されているが, 本論文では出現頻度の高いフレーズの検索が既存の圧縮法に比べて性能が良いような圧縮方法を提案する. 提案手法では, SAを大きさSのブロックに分割し, そのブロック内でソートを行い, 差分を取ったものを保存し, 検索時は差分からソート後のSAを取り戻し, 区間S内を全て逐次的に検索する. 最終的には実験により特に検索フレーズの頻度が高い場合, 多くの入力データで提案手法の性能が既存の方法より優れていることを示す.