COLD-Attack: Jailbreaking LLMs with Stealthiness and Controllability
Last updated
Last updated
本研究聚焦于大型语言模型(LLMs)的安全性问题,特别是针对LLMs的“越狱”攻击(jailbreaking)。越狱攻击指的是通过精心设计的输入(prompts)来绕过LLMs的安全机制,使其生成不当或有害的内容。随着LLMs在各种应用中的广泛使用,确保它们的安全性变得尤为重要。因此,研究如何评估和提高LLMs的安全性,防止越狱攻击,成为了一个重要课题。
以往的研究提出了多种越狱攻击的技术,包括白盒方法和黑盒方法。白盒方法需要使用内部模型知识,能够自动化地生成攻击,但可能产生可预测性较高的攻击,容易被基于困惑度的防御机制检测到。黑盒方法则不需要内部访问权限,可以直接对商业LLMs进行探测,但通常依赖于模式化的提示,容易受到模式识别的防御。现有技术在生成流畅攻击的同时,未能充分考虑攻击的隐蔽性和其他多样化特征,这限制了对LLMs安全性的全面评估。
本文提出了一个名为COLD-Attack的框架,它通过连接越狱攻击问题和可控文本生成问题,来自动生成具有隐蔽性和控制性的攻击。COLD-Attack框架包括以下步骤:
能量函数构建:根据攻击要求,设计一系列能量函数来捕捉攻击的特征。
郎之万动力学采样:使用郎之万动力学进行迭代,以获得一个优化的、基于能量函数的模型,指导攻击的logit序列。
解码过程:将连续的logit序列解码为离散文本攻击。
COLD-Attack的主要创新点和贡献包括:
将越狱攻击问题与可控文本生成问题相连接,为自动化越狱攻击提供了新视角。
利用能量函数和郎之万动力学,提出了一种高效且强大的攻击生成方法。
通过实验验证了COLD-Attack在多种设置下的适用性、控制性和攻击成功率。
展示了COLD-Attack在生成具有流畅性、隐蔽性、情感和左右一致性等多种控制要求的攻击方面的优势。
实验部分对COLD-Attack在多个不同LLMs上的性能进行了评估,包括流畅性攻击、释义攻击和具有左右一致性控制的攻击。使用了攻击成功率(ASR)、基于GPT-4的ASR(ASR-G)、困惑度(PPL)等指标来衡量攻击的效果。实验结果表明,COLD-Attack在各种攻击设置下都展现出了较高的攻击成功率和良好的文本流畅性。
实验结果证实了COLD-Attack能够有效地生成符合特定控制要求的攻击,同时保持较高的成功率和流畅性。此外,COLD-Attack展现出了良好的攻击迁移能力,即使是针对具有安全对齐的LLMs,也能够产生有效的攻击。
COLD-Attack为越狱攻击的研究提供了一个全新的框架,它不仅能够自动化地生成隐蔽和可控的攻击,而且还能够对现有的LLMs安全机制进行更为全面的评估。这项工作有助于推动LLMs安全性研究的发展,并为未来的防御策略提供参考。
本研究提出了COLD-Attack框架,旨在自动化生成针对大型语言模型的隐蔽和可控的越狱攻击。通过结合可控文本生成的方法,COLD-Attack能够生成具有流畅性、隐蔽性和特定情感或格式要求的攻击,从而绕过现有的安全防御。实验表明,该框架在多个LLMs上都取得了良好的效果,显示出其广泛的适用性和高效性。这项工作不仅为LLMs的安全性评估提供了新的工具,也为未来的防御策略提供了重要的参考。