人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 4G1-GS-6-04
会議情報

大規模言語モデルにより生成された日本語テキストの検出性能の検証
岩田 理央*綱川 隆司西田 昌史
著者情報
会議録・要旨集 フリー

詳細
抄録

近年のChatGPTをはじめとした大規模言語モデル(LLM)の普及によりインターネット上にスパムや誤情報を含むLLM生成テキストが増加していくことが予想される.また,LLMの進歩により人間が作成したテキストとLLMで生成されたテキストを区別することが困難になっている.英語テキストを対象とするDetectGPTやGhostbuster等の検出手法が存在するが日本語テキストを対象とする先行研究に乏しい.そこで,本研究では最新のゼロショット検出手法であるBinocularsを日本語テキスト判別に適用し,LLMで生成された日本語テキストの検出性能の評価を実施するとともに,損失関数に焦点損失を用いる手法を提案する.人間が作成したテキストにOSCARコーパスから抽出したもの,LLM生成テキストにGPT-3.5 Turboを用いて作成したデータセットにおいて検出性能を評価した結果,200文字以上で正解率,F値ともに0.94以上の検出性能を維持しテキストが短くなるほど検出性能が低下することが示された.さらに,焦点損失を応用した提案手法を用いることでどの文字数においても正解率,F値が向上した.

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top