Studious Bob Fight Back Against Jailbreaking via Prompt Adversarial Tuning
Last updated
Last updated
大型语言模型(LLMs)在多种应用中取得了巨大成功,但它们也容易受到特定提示的诱导,绕过内置的安全措施,提供危险或非法内容,这种现象被称为“越狱”(jailbreak)。越狱攻击尝试利用LLMs的漏洞绕过对齐(alignment),引发了对LLMs安全性的严重担忧。因此,保护LLMs免受有害信息的产生变得尤为重要。
以往的防御策略主要集中在内容过滤或对抗性训练模型上。内容过滤方法通过监控模型的输入和输出来保护模型,而对抗性训练则通过在模型训练集中引入对抗样本来提高模型的鲁棒性。然而,这些方法主要关注特定的对抗性攻击或模型训练过程,忽略了越狱攻击的根本原因:输入提示(prompt)对LLMs的影响。此外,现有的防御方法要么专注于防御特定类型的越狱攻击,要么需要巨大的计算成本,因为它们需要对整个大型语言模型进行微调。
本文提出了一种名为Prompt Adversarial Tuning (PAT)的方法,通过训练一个防御控制机制,并将其作为前缀嵌入到用户提示中以实施防御策略。PAT的设计过程类似于对抗性训练,交替更新攻击和防御控制。PAT的主要步骤包括:
通过对抗性调优过程优化防御前缀。
将防御控制作为前缀加入到用户提示中。
在推理阶段,模型开发者将防御控制作为前缀加入到用户提示中,以防御越狱攻击,同时保持正常问答交互的完整性。
首次从提示调整的角度考虑提高模型防御能力。
PAT方法在部署后对LLMs的操作效率影响微乎其微。
实验表明,PAT方法在黑盒和白盒设置中都有效,将高级攻击的成功率降低到接近0,同时保持对简单良性问题的良性回答率为80%。
实验包括了多组对抗性攻击和防御的测试,使用了不同的数据集和模型设置。实验结果显示,PAT在多种设置下都能有效降低越狱攻击的成功率,并且在白盒和黑盒设置下均表现出良好的迁移性。
PAT方法在保护LLMs免受越狱攻击方面表现出色,且对模型的正常使用影响较小。实验结果表明,PAT能够有效地在各种设置中减少高级攻击的成功率,并保持良好的模型可用性。
本文提出的Prompt Adversarial Tuning (PAT)方法为LLMs的安全性提供了新的视角和解决方案。PAT通过在用户提示前添加防御控制,有效地提高了模型对越狱攻击的抵抗力,同时保持了模型的正常使用效率。尽管PAT在面对适应性攻击时防御效果会有所下降,但其在LLMs安全性研究中的意义和潜力不容忽视。
本文针对大型语言模型(LLMs)面临的越狱攻击问题,提出了一种新颖的防御方法Prompt Adversarial Tuning (PAT)。通过对抗性调优过程,PAT能够在不影响模型正常使用的前提下,显著提高模型对越狱攻击的抵抗力。实验结果证明了PAT的有效性,为未来LLMs安全性研究提供了新的视角和方法。尽管PAT在面对更复杂的攻击时可能需要进一步的改进,但其在当前LLMs安全性防御领域已经取得了显著的进展。