2021 年 38 巻 4 号 p. 4_60-4_82
コードクローンとは,ソースコード中に存在する互いに一致または類似した部分を持つコード片のことである.横井らが提案したコードクローン検出ツールCCVoltiは,情報検索技術であるTF-IDFと近似最近傍探索アルゴリズムCross-Polytope LSHを利用して,従来の手法では困難であった意味的に類似するコードクローンを高速に検出可能とした.しかし,CCVoltiは検出時間がCross-Polytope LSHに大きく依存し,Cross-Polytope LSHによるコードクローンの検出漏れが発生するという問題点がある.本研究では,クローン検出の利用者が与えた再現率の目標値を満たしつつ,できるだけ時間を短縮することを目的として,プロジェクトの規模から適切なパラメータ値を求める線形回帰モデルを構築し,コードクローン検出対象に適したCross-Polytope LSHに与えるパラメータ値の組を決定する手法を提案する.さらに,20個のプロジェクトに対して本手法で決定されたパラメータ値をCCVoltiに適用し,コードクローン検出する評価実験を実施して本手法の有効性を示す.