AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens
Last updated
Last updated
大型语言模型(LLMs)在提供高效文本生成能力的同时,也面临着所谓的“越狱攻击”(Jailbreak attacks),这种攻击通过恶意提示诱导模型生成违反伦理和法律规定的内容。这对LLMs的安全性构成了重大威胁。现有的越狱攻击和防御策略通常集中在特定算法框架内的局部优化,导致优化效果不佳且难以扩展。
当前的越狱攻击方法,如遗传算法(GA)和对抗生成方法,通常只优化框架内的某个特定子组件,而忽略了其他子组件的重要性。在防御方面,现有的越狱防御通常只针对特定类型的越狱提示,例如带有对抗性后缀的提示,这限制了它们对抗更广泛攻击范围的有效性。
本文提出了AutoJailbreak框架,通过有向无环图(DAGs)来分析和定位现有的越狱攻击、防御和评估方法,并提出了三个全面、自动化和逻辑框架:
AutoAttack:分析了基于GA和对抗生成的越狱优化策略,并开发了两种集成攻击方法。
AutoDefense:提出了一种混合防御者方法,利用预生成和后生成防御策略中的依赖关系。
AutoEvaluation:引入了一种新的评估方法,区分了通常被忽视的幻觉(hallucinations)与越狱攻击和防御响应。
提出了AutoJailbreak框架,通过依赖关系分析,提供了一种全面评估LLMs对越狱攻击的韧性的方法。
AutoAttack通过结合不同优化方案的优势,开发了两种集成攻击方法,显著提高了攻击效果。
AutoDefense利用混合防御者机制,整合了预生成和后生成防御,有效提升了LLMs对越狱攻击的鲁棒性。
AutoEvaluation通过两阶段评估,将幻觉现象纳入评估体系,重新审视了现有攻击和防御方法的有效性。
实验使用了96种不同的恶意行为数据集,涵盖了广泛的越狱子类别。实验包括与多个开源和闭源LLMs的交互,包括GPT-3.5、GPT-4、LLaMa-2、LLaMa-3等。评估指标包括越狱成功率(JR)、幻觉率(HR)和对齐率(AR)。
实验结果表明,AutoJailbreak在越狱攻击和防御方面均表现出色,显著优于现有研究。集成的AutoAttack能够可靠地破解所有测试模型,而集成的AutoDefense显著增强了LLMs的越狱鲁棒性。
AutoJailbreak框架提供了一种新的视角,通过依赖关系分析来评估和改进LLMs的越狱攻击和防御方法。该框架不仅能够提升现有黑盒自动化越狱攻击的能力,而且能够更准确地评估目标模型和防御方法的鲁棒性。作者希望这项研究能够激发机器学习社区的学者们扩展和改进现有的攻击和防御方法,为开发真正安全的LLMs做出贡献。
本文提出了AutoJailbreak框架,通过依赖关系分析,对现有的LLMs越狱攻击和防御方法进行了系统性的评估和改进。通过AutoAttack、AutoDefense和AutoEvaluation三个组件,文章展示了在黑盒场景下对LLMs进行有效越狱攻击和防御的可能性,并提出了一种新的评估方法来更准确地衡量LLMs的安全性。实验结果证明了该框架在提高越狱攻击效果和LLMs防御鲁棒性方面的有效性,为未来LLMs安全性研究提供了宝贵的见解和工具。