コメントに着目したLLM生成コードの検出精度の比較調査

井上 智博; 崔 恩瀞

doi:10.11309/fose.32.0_43

抄録

LLM生成コードには，人間が書いたコードとは異なる特徴が現れる可能性がある．特に，LLMが生成した自然言語文には，人間が書いた文とは異なる特徴があることが知られているため，コード中のコメントにもLLM特有の特徴が表れている可能性がある．しかし，LLM生成コードの検出においてファインチューニングに用いられているデータ中のコメントの有無が検出精度に与える影響については調査した既存研究は，我々が知る限り存在しない．そこで本研究では，LLMを用いたLLM生成コード検出において，ファインチューニングに用いるデータに含まれるコメントの有無が検出精度にどのように影響をするかを調査した．その結果，コメントを含むデータでファインチューニングしたLLMは，コメントを含むコードに対しては高い検出精度を示した一方で，コメントを含まないコードに対しては検出精度が著しく低下することが確認された．また，コメントを含まないデータでファインチューニングしたLLMは，コメントの有無にかかわらず安定して高い検出精度を示した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）