RAPID OPTIMIZATION FOR JAILBREAKING LLMS VIA SUBCONSCIOUS EXPLOITATION AND ECHOPRAXIA

1. 研究背景

本研究聚焦于大型语言模型（LLMs）的安全性问题。随着LLMs在各个领域的广泛应用，它们在敏感任务中的使用引起了对安全性的广泛关注。尽管LLMs的对齐努力旨在确保它们与人类道德原则一致，但近期研究表明，即使是经过对齐的LLMs也容易受到专门的越狱提示的攻击，这些提示可以绕过安全措施以引发暴力和有害内容的生成。当前LLMs的离散性和大规模特性在自动生成多样化、高效和强大的越狱提示方面构成了重大挑战。

2. 过去方案和缺点

以往的越狱技术主要分为基于模板的方法和基于优化的方法。基于模板的方法依赖于人类或LLMs生成的战术模板来绕过LLM的安全机制，但这种方法需要大量的人力努力和领域专业知识，且由于提示之间的相似性，限制了其适用范围。基于优化的方法将LLM越狱视为一个离散优化问题，旨在优化一个特定的提示以最小化自定义目标函数。然而，这些技术在越狱LLMs方面的有效性有限，主要是由于LLMs固有的庞大且离散的搜索空间和模糊的优化目标。

3. 本文方案和步骤

本文提出了一种名为RIPPLE（RapId OPtimization via Subconscious ExPLoitation and Echopraxia）的新型优化方法，灵感来源于心理学中的潜意识和模仿行为概念。RIPPLE通过以下步骤实现对LLMs的有效和高效越狱：

利用潜意识挖掘：通过概率采样技术从模型的输出分布中提取与有害查询相关的信息。
快速提示优化：采用模仿行为初始化，调整系数以增强模型对目标序列的生成，结合候选列表的混合获取策略，以及随机束搜索算法来加速优化过程。
黑盒转移攻击：通过文本去噪任务将生成的越狱提示转移到黑盒商业LLMs上。

4. 本文创新点与贡献

RIPPLE的主要创新点和贡献包括：

引入心理学概念来解决LLMs的越狱问题，这是对现有技术的显著扩展。
提出了一种新的优化框架，能够快速生成高效的越狱提示。
展示了RIPPLE在白盒和黑盒设置下对开源和商业LLMs的转移攻击能力。
通过实验评估证明了RIPPLE在攻击成功率、多样性和隐蔽性方面的优势。

5. 本文实验

实验在6个开源LLMs和4个商业LLM APIs上进行，使用了AdvBench基准测试集。实验结果显示，RIPPLE在白盒设置下的平均攻击成功率为91.5%，比现有方法提高了42.18%，并且在黑盒模型上也展现出强大的转移能力。

6. 实验结论

实验结果表明，RIPPLE在越狱LLMs方面显著优于现有技术，具有更高的攻击成功率、更好的多样性和更强的隐蔽性。此外，RIPPLE还能够成功地将越狱提示从白盒LLM转移到黑盒商业LLMs。

7. 全文结论

RIPPLE作为一种新型的优化方法，为LLMs的安全性研究提供了新的视角和工具。它不仅能够有效地越狱各种LLMs，还能够在不同的设置下进行有效的攻击转移。这项工作强调了LLMs安全性研究的重要性，并为未来的研究提供了新的方向。

阅读总结

本文提出了一种新的LLMs越狱方法RIPPLE，该方法通过利用潜意识和模仿行为的概念，能够有效地生成越狱提示并绕过现有的安全措施。RIPPLE在多个开源和商业LLMs上的实验结果显示了其高效性和隐蔽性，强调了在LLMs的安全性研究中需要更多关注和创新。这项工作不仅为LLMs的安全性评估提供了新的工具，也为未来的研究和防御策略提供了宝贵的参考。

PreviousThe Philosopher’s Stone: Trojaning Plugins of Large Language Models NextLeveraging the Context through Multi-Round Interactions for Jailbreaking Attacks

Last updated 1 year ago