RAPID OPTIMIZATION FOR JAILBREAKING LLMS VIA SUBCONSCIOUS EXPLOITATION AND ECHOPRAXIA
Last updated
Last updated
本研究聚焦于大型语言模型(LLMs)的安全性问题。随着LLMs在各个领域的广泛应用,它们在敏感任务中的使用引起了对安全性的广泛关注。尽管LLMs的对齐努力旨在确保它们与人类道德原则一致,但近期研究表明,即使是经过对齐的LLMs也容易受到专门的越狱提示的攻击,这些提示可以绕过安全措施以引发暴力和有害内容的生成。当前LLMs的离散性和大规模特性在自动生成多样化、高效和强大的越狱提示方面构成了重大挑战。
以往的越狱技术主要分为基于模板的方法和基于优化的方法。基于模板的方法依赖于人类或LLMs生成的战术模板来绕过LLM的安全机制,但这种方法需要大量的人力努力和领域专业知识,且由于提示之间的相似性,限制了其适用范围。基于优化的方法将LLM越狱视为一个离散优化问题,旨在优化一个特定的提示以最小化自定义目标函数。然而,这些技术在越狱LLMs方面的有效性有限,主要是由于LLMs固有的庞大且离散的搜索空间和模糊的优化目标。
本文提出了一种名为RIPPLE(RapId OPtimization via Subconscious ExPLoitation and Echopraxia)的新型优化方法,灵感来源于心理学中的潜意识和模仿行为概念。RIPPLE通过以下步骤实现对LLMs的有效和高效越狱:
利用潜意识挖掘:通过概率采样技术从模型的输出分布中提取与有害查询相关的信息。
快速提示优化:采用模仿行为初始化,调整系数以增强模型对目标序列的生成,结合候选列表的混合获取策略,以及随机束搜索算法来加速优化过程。
黑盒转移攻击:通过文本去噪任务将生成的越狱提示转移到黑盒商业LLMs上。
RIPPLE的主要创新点和贡献包括:
引入心理学概念来解决LLMs的越狱问题,这是对现有技术的显著扩展。
提出了一种新的优化框架,能够快速生成高效的越狱提示。
展示了RIPPLE在白盒和黑盒设置下对开源和商业LLMs的转移攻击能力。
通过实验评估证明了RIPPLE在攻击成功率、多样性和隐蔽性方面的优势。
实验在6个开源LLMs和4个商业LLM APIs上进行,使用了AdvBench基准测试集。实验结果显示,RIPPLE在白盒设置下的平均攻击成功率为91.5%,比现有方法提高了42.18%,并且在黑盒模型上也展现出强大的转移能力。
实验结果表明,RIPPLE在越狱LLMs方面显著优于现有技术,具有更高的攻击成功率、更好的多样性和更强的隐蔽性。此外,RIPPLE还能够成功地将越狱提示从白盒LLM转移到黑盒商业LLMs。
RIPPLE作为一种新型的优化方法,为LLMs的安全性研究提供了新的视角和工具。它不仅能够有效地越狱各种LLMs,还能够在不同的设置下进行有效的攻击转移。这项工作强调了LLMs安全性研究的重要性,并为未来的研究提供了新的方向。
本文提出了一种新的LLMs越狱方法RIPPLE,该方法通过利用潜意识和模仿行为的概念,能够有效地生成越狱提示并绕过现有的安全措施。RIPPLE在多个开源和商业LLMs上的实验结果显示了其高效性和隐蔽性,强调了在LLMs的安全性研究中需要更多关注和创新。这项工作不仅为LLMs的安全性评估提供了新的工具,也为未来的研究和防御策略提供了宝贵的参考。