主催: 一般社団法人 人工知能学会
会議名: 2025年度人工知能学会全国大会(第39回)
回次: 39
開催地: 大阪国際会議場+オンライン
開催日: 2025/05/27 - 2025/05/30
近年のChatGPTをはじめとした大規模言語モデル(LLM)の普及によりインターネット上にスパムや誤情報を含むLLM生成テキストが増加していくことが予想される.また,LLMの進歩により人間が作成したテキストとLLMで生成されたテキストを区別することが困難になっている.英語テキストを対象とするDetectGPTやGhostbuster等の検出手法が存在するが日本語テキストを対象とする先行研究に乏しい.そこで,本研究では最新のゼロショット検出手法であるBinocularsを日本語テキスト判別に適用し,LLMで生成された日本語テキストの検出性能の評価を実施するとともに,損失関数に焦点損失を用いる手法を提案する.人間が作成したテキストにOSCARコーパスから抽出したもの,LLM生成テキストにGPT-3.5 Turboを用いて作成したデータセットにおいて検出性能を評価した結果,200文字以上で正解率,F値ともに0.94以上の検出性能を維持しテキストが短くなるほど検出性能が低下することが示された.さらに,焦点損失を応用した提案手法を用いることでどの文字数においても正解率,F値が向上した.