ソフトウェア工学の基礎ワークショップ論文集
Online ISSN : 2436-634X
第32回ソフトウェア工学の基礎ワークショップ(FOSE2025)
会議情報

コメントに着目したLLM生成コードの検出精度の比較調査
井上 智博崔 恩瀞
著者情報
会議録・要旨集 フリー

p. 43-52

詳細
抄録

LLM生成コードには,人間が書いたコードとは異なる特徴が現れる可能性がある.特に,LLMが生成した自然言語文には,人間が書いた文とは異なる特徴があることが知られているため,コード中のコメントにもLLM特有の特徴が表れている可能性がある.しかし,LLM生成コードの検出においてファインチューニングに用いられているデータ中のコメントの有無が検出精度に与える影響については調査した既存研究は,我々が知る限り存在しない.そこで本研究では,LLMを用いたLLM生成コード検出において,ファインチューニングに用いるデータに含まれるコメントの有無が検出精度にどのように影響をするかを調査した.その結果,コメントを含むデータでファインチューニングしたLLMは,コメントを含むコードに対しては高い検出精度を示した一方で,コメントを含まないコードに対しては検出精度が著しく低下することが確認された.また,コメントを含まないデータでファインチューニングしたLLMは,コメントの有無にかかわらず安定して高い検出精度を示した.

著者関連情報
前の記事 次の記事
feedback
Top