CATASTROPHIC JAILBREAK OF OPEN-SOURCE LLMS VIA EXPLOITING GENERATION

研究背景

随着开源大型语言模型（LLMs）的快速发展，它们在AI领域的应用显著增加。为了确保这些模型的有益性和无害性，开发者在模型发布前进行了大量努力来调整其行为以符合人类价值观。然而，即使是经过精心调整的模型也可能被恶意操纵，导致意外行为，这种行为被称为“越狱”（jailbreaks）。越狱通常是通过特定的文本输入，即对抗性提示（adversarial prompts）来触发的。

过去方案和缺点

过去的研究主要集中在通过训练技术和红队评估来调整LLMs的行为，以提高其安全性。这些方法包括监督式安全微调、基于人类反馈的强化学习（RLHF）等。尽管这些方法在提高模型安全性方面取得了一定成效，但LLMs仍然容易受到对抗性输入的影响，越狱行为依然存在。

本文方案和步骤

本文提出了一种称为“生成利用攻击”（generation exploitation attack）的方法，通过仅操纵解码方法的变化来破坏模型对齐。具体步骤包括：

移除系统提示：系统提示通常被用来引导模型生成符合人类价值观的输出。
变化解码超参数：通过改变解码过程中的温度（temperature）参数来影响下一个词的分布锐度。
变化采样方法：使用不同的采样方法，如Top-K采样和Top-p采样。

本文创新点与贡献

提出了一种简单且计算成本低的越狱攻击方法，能够在不使用复杂技术的情况下破坏LLMs的对齐。
通过实验表明，该方法能够将11个语言模型中的9个的不一致率提高到超过95%。
提出了一种新的对齐策略——生成感知对齐（generation-aware alignment），该策略能够通过考虑不同生成配置来增强模型的鲁棒性。

本文实验

实验在11个开源LLMs上进行，包括LLAMA2、VICUNA、FALCON和MPT系列模型。使用了两个基准测试集：AdvBench和新创建的MaliciousInstruct。实验结果显示，通过改变解码策略，可以显著提高攻击成功率。

实验结论

实验结果表明，通过简单地改变解码策略，可以显著提高越狱攻击的成功率。此外，对于经过安全对齐的模型，如LLAMA2 chat模型，通过多次采样和施加解码约束可以进一步提高攻击成功率。

全文结论

本文的研究揭示了当前开源LLMs在安全评估和对齐程序中的重大缺陷。作者强烈建议在发布此类模型之前采用更全面的红队评估，并实施生成感知对齐策略，以提高模型的安全性和可靠性。

注1：

这篇文章提出的威胁模型是基于模型生成行为的操纵，即通过改变文本生成的配置来破坏大型语言模型（LLMs）的对齐。在这种模型中，攻击者可以控制的主要是以下几个方面：

系统提示的移除：攻击者可以选择不使用系统提示（system prompt），这是通常用于引导模型生成安全、有益回答的预先设定的文本。移除系统提示可能会使模型更容易生成与安全对齐不一致的输出。
解码超参数的变化：攻击者可以调整解码过程中使用的超参数，例如温度（temperature）参数。温度参数影响生成概率分布的锐度，改变温度可以导致模型生成不同风格或风险程度的文本。
采样方法的变更：攻击者可以使用不同的文本生成采样方法，如Top-K采样和Top-p采样。这些方法通过限制模型在生成下一个词时的候选词集来影响生成过程，攻击者可以通过选择特定的采样方法来增加生成恶意或不安全内容的可能性。
多次采样尝试：攻击者可以通过对同一个输入进行多次采样尝试，来寻找能够绕过模型安全对齐的输出。这种方法利用了生成过程的随机性，通过多次尝试来寻找最有可能触发不当行为的输出。
解码过程中的约束：攻击者还可以在解码过程中施加特定的约束，例如通过限制某些“坏词”的生成或强制包含某些“强制词”。

总的来说，威胁模型假设攻击者具有对模型生成行为的控制能力，可以通过调整生成配置来诱导模型生成不安全或恶意的输出。这种攻击方式不需要复杂的优化算法或对模型的内部结构有深入了解，因此相对容易实施。

注2：

这篇文章中描述的攻击可以被归类为白盒攻击。在白盒攻击中，攻击者对目标系统（在这种情况下是大型语言模型）有深入的了解，包括其内部工作机制和配置选项。在本文中，攻击者利用对模型解码过程的了解，通过改变解码策略和参数来操纵模型的输出，从而试图破坏模型的安全对齐。

这种攻击方式通常假设攻击者可以访问模型的API或直接与模型交互，并且能够控制输入和生成过程中的参数设置。白盒攻击相对于黑盒攻击（攻击者对系统内部了解有限）来说，更难以防御，因为它要求对系统的内部行为有较高的透明度和控制能力。在LLMs的情况下，白盒攻击可能涉及到对模型的输入、输出以及生成过程中的超参数进行精细的调整和控制

阅读总结报告

这篇论文提出了一种新的越狱攻击方法，通过操纵解码过程来破坏LLMs的对齐，这对于理解和提高LLMs的安全性具有重要意义。作者不仅展示了攻击方法的有效性，还提出了一种新的对齐策略来防御此类攻击。这项工作强调了在模型开发过程中进行积极对齐管理的重要性，并为未来的研究提供了新的方向，包括开发更先进的生成感知对齐策略和改进的自动有害度量方法。

PreviousFINE-TUNING ALIGNED LANGUAGE MODELS COMPROMISES SAFETY, EVEN WHEN USERS DO NOT INTEND TO!NextEVALUATING THE SUSCEPTIBILITY OF PRE-TRAINED LANGUAGE MODELS VIA HANDCRAFTED ADVERSARIAL EXAMPLES

Last updated 1 year ago