主催: 阿萬 裕久, 天㟢 聡介
会議名: 第32回ソフトウェア工学の基礎ワークショップ(FOSE2025)
開催地: 愛媛県松山市
開催日: 2025/11/06 - 2025/11/08
p. 43-52
LLM生成コードには,人間が書いたコードとは異なる特徴が現れる可能性がある.特に,LLMが生成した自然言語文には,人間が書いた文とは異なる特徴があることが知られているため,コード中のコメントにもLLM特有の特徴が表れている可能性がある.しかし,LLM生成コードの検出においてファインチューニングに用いられているデータ中のコメントの有無が検出精度に与える影響については調査した既存研究は,我々が知る限り存在しない.そこで本研究では,LLMを用いたLLM生成コード検出において,ファインチューニングに用いるデータに含まれるコメントの有無が検出精度にどのように影響をするかを調査した.その結果,コメントを含むデータでファインチューニングしたLLMは,コメントを含むコードに対しては高い検出精度を示した一方で,コメントを含まないコードに対しては検出精度が著しく低下することが確認された.また,コメントを含まないデータでファインチューニングしたLLMは,コメントの有無にかかわらず安定して高い検出精度を示した.