Universal and Transferable Adversarial Attacks on Aligned Language Models

研究背景

随着大型语言模型（LLMs）在互联网上的广泛应用，它们在生成内容时可能会产生大量不当内容。为了解决这个问题，研究者们开始尝试对这些模型进行对齐（alignment），以防止它们生成不受欢迎的内容。然而，尽管在对抗这些措施方面取得了一定的成功，但这些所谓的“越狱”攻击通常需要大量的人为努力，并且在实践中容易受到破坏。此外，自动生成对抗性提示（adversarial prompts）的尝试也取得了有限的成功。

过去方案和缺点

过去的工作主要集中在通过人工工程化提示（jailbreaks）来对抗LLMs，这些提示通过精心设计的场景来引导模型误入歧途。然而，这些方法通常需要大量的手动努力，并且容易受到模型更新和改进的影响。自动提示调整方法在对抗LLMs方面也面临挑战，因为它们需要在离散的标记输入上进行优化，这在计算上是困难的。此外，现有的方法在自动搜索方法上未能产生可靠的攻击，这主要是因为LLMs操作在离散的标记输入上，这限制了有效的输入维度，并导致了计算上的困难。

本文方案和步骤

本文提出了一种简单而有效的攻击方法，通过在LLMs的查询后附加一个对抗性后缀（adversarial suffix），来诱导模型生成不当内容。这种方法结合了贪婪搜索和基于梯度的搜索技术，自动产生这些对抗性后缀。具体步骤包括：

初始肯定响应：通过优化模型以开始其响应，使其以“Sure, here is (content of query)”的形式回应，从而将模型置于一种“模式”，在这种模式下，模型会在其响应中立即产生不当内容。
结合贪婪和基于梯度的离散优化：通过计算每个标记位置的梯度来识别一组有前景的单标记替换，评估这些候选替换的损失，并选择最佳替换。
健壮的多提示和多模型攻击：为了生成可靠的攻击后缀，需要创建一个不仅适用于单个模型上的单个提示，而且适用于多个模型上的多个提示的攻击。

本文创新点与贡献

本文的主要创新点在于提出了一种新的对抗性攻击类别，可以诱导对齐的语言模型产生几乎任何不当内容。这种方法通过优化对抗性后缀来实现，这些后缀在多个模型和多个提示上具有高度的可转移性。此外，本文还提出了一种新的优化方法，即Greedy Coordinate Gradient（GCG），它在实践中比现有的AutoPrompt方法表现得更好。

本文实验

实验部分，作者设计了一个新的基准测试AdvBench，基于两种不同的设置：有害字符串（Harmful Strings）和有害行为（Harmful Behaviors）。实验结果表明，GCG方法在Vicuna-7B和Llama-2-7B-Chat模型上都能一致地找到成功的攻击，并且在转移攻击方面，GCG生成的攻击在多个模型上都表现出了惊人的转移性。

实验结论

实验结果表明，GCG方法在生成对抗性后缀方面显著优于先前的方法，无论是在单个模型上还是在多个模型上。此外，这些攻击在多个模型上具有高度的可转移性，这表明了在LLMs中存在普遍的对抗性攻击。

全文结论

本文的研究显著推进了对抗对齐语言模型的攻击技术，提出了一种新的攻击方法，该方法不仅在单个模型上有效，而且能够在多个模型之间转移。这些发现对LLMs的对齐训练提出了重要的问题，并强调了需要更可靠的对齐和安全机制。

阅读总结报告

本研究针对大型语言模型（LLMs）在生成内容时可能产生的不当内容问题，提出了一种新的对抗性攻击方法。这种方法通过在用户查询后附加对抗性后缀，能够有效地诱导模型生成不当内容。研究者们通过结合贪婪搜索和基于梯度的优化技术，自动产生了这些对抗性后缀。实验结果表明，这种方法在多个模型和多个提示上都表现出了高度的可转移性，显著优于先前的方法。这一发现不仅对LLMs的对齐训练提出了挑战，也对如何防止这些系统产生不当信息提出了重要问题。研究者们在实验中还展示了攻击的可转移性，即使在不同的模型和架构之间，攻击也能成功诱导不当行为。这些结果强调了在LLMs中实现可靠对齐和安全性的重要性，并为未来的研究提供了新的方向。

PreviousLOFT: LOCAL PROXY FINE-TUNING FOR IMPROVING TRANSFERABILITY OF ADVERSARIAL ATTACKS AGAINST LARGE LAN NextRobustness Over Time: Understanding Adversarial Examples’ Effectiveness on Longitudinal Versions of

Last updated 1 year ago