大規模言語モデルのための二重電子透かし

永塚 光一; 十河 泰弘

doi:10.11517/pjsai.JSAI2024.0_4Xin281

抄録

大規模言語モデルによって生成されたテキストを高い精度で検出することは，LLMによる誤情報の拡散や悪用を防ぐ上で非常に重要である．近年，LLM由来のテキストを検出する技術の一つとして，言語モデルの自己回帰生成プロセスに着目した電子透かしが注目されている．この手法では，単一の鍵に基づき選ばれた一部のトークンの生成確率に補正を加えることで，特定のトークン出現パターンを透かしとしてテキストに埋め込む．従来手法は，高い精度でテキストの生成元を判別できる一方で，単一の鍵が漏洩した場合にテキストの検出が困難になるという課題がある．本稿では，こうした鍵漏洩時の脆弱性を緩和するために，新たに二重電子透かしを提案する．提案手法では，二つの異なる鍵を用いて二重に透かしを埋め込むことにより，一方の鍵が漏洩した場合におけるテキストの検出を可能にする．指示データセットを用いた実験により，提案手法がテキストの質を大きく低下させることなく，高い精度で二つの透かしを検出できることを示した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）