主催: 戸田 航史, 藤原 賢二
会議名: 第31回ソフトウェア工学の基礎ワークショップ(FOSE2024)
開催地: 佐賀県佐賀市
開催日: 2024/11/28 - 2024/11/30
p. 35-44
変数名は単なる識別子というだけでなく,処理内容を適切に表現していることが望ましい. 一般に変数名の適切さ評価には人手によるコードレビューが必要であり,それだけに工数のかかる作業となっている.これまでに,変数名そのものやそれを取り巻くソースコードの特徴をメトリクスによって数値化し,機械学習(ランダムフォレスト)によって名前変更発生の有無を予測する手法が知られているが,コードの文脈までは考慮できていなかった.そこで本論文では,大規模言語モデルの 1 つである CodeT5 を使ってコードの文脈を考慮した評価を行うことを考え,そこに正規表現によるパターンマッチングも組み合わせることで不適切な変数名を自動的に検出する新たな手法を提案している.そして,実際に人手によって行われたコードレビューデータに対する評価実験を行い,提案手法をランダムフォレストを用いた従来手法と併用することでより良い検出が可能であることを報告している.