人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 2Win5-49
会議情報

反復的Jailbreakを防ぐオンライン学習によるプロンプト最適化
*金子 正弘ZEERAK TalatTIMOTHY Baldwin
著者情報
会議録・要旨集 フリー

詳細
抄録

本研究は、反復的Jailbreak手法に対抗するため、オンライン学習で防御システムを動的に更新する枠組みを提案する。さらに、Jailbreakプロンプトは冗長性や曖昧性を増大させる特徴を持つ一方で、無害タスクに最適なプロンプトは異なる特徴を示すことに着目し、無害タスクにおける応答性能と有害タスクにおける拒否性能のトレードオフがない防御モデルを強化学習により実現する。 実験により、提案手法は5つの既存防御手法を上回り、3つのJailbreak手法に対して有意な防御性能を示すとともに、無害タスクの応答性能と有害タスクの拒否性能のどちらも向上することを確認した。

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top