Tastle: Distract Large Language Models for Automatic Jailbreak Attack

研究背景

随着大型语言模型（LLMs）在自然语言处理（NLP）任务中取得显著进展，它们在现实世界的应用也引起了对潜在滥用的担忧，尤其是关于偏见和犯罪活动的问题。为了确保LLMs的安全性，研究者们在模型发布前进行了大量工作，以使其行为与人类价值观保持一致，主要目标是确保它们的有用性和无害性。然而，即使是经过精心对齐的LLMs，也仍然容易受到恶意操纵，如越狱攻击，导致意外行为的发生。

过去方案和缺点

以往的越狱攻击方法主要依赖于手工制作的提示（prompts）或者基于优化的方法。手工制作的越狱提示虽然有效且可转移，但不具备可扩展性。而基于优化的方法，如基于梯度的攻击，需要能够计算或近似模型输出相对于输入的梯度，这只有在知道目标模型的细节时才可能实现。这些方法在面对复杂和可转移的越狱攻击时遇到了挑战。

本文方案和步骤

本文提出了Tastle，一个新颖的黑盒越狱框架，用于自动化的红队攻击（red teaming）LLMs。Tastle通过恶意内容隐藏和记忆重构，以及迭代优化算法来设计和优化越狱模板。该框架的动机来自于LLMs易受无关内容干扰的研究，这表明LLMs容易被无关内容分散注意力，导致推理能力下降。Tastle利用这一机制，将恶意内容隐藏在复杂且无关的场景中，从而降低目标LLM拒绝恶意请求的能力。

Tastle的实施流程可以分为以下几个关键步骤：

设计攻击框架：
- Tastle框架基于LLMs的易分散注意力的特性，设计了一个自动化的越狱攻击流程。
- 框架包含三个主要组件：恶意内容隐藏、记忆重构和迭代越狱模板优化。
恶意内容隐藏：
- 利用LLMs对无关内容容易分散注意力的特点，将恶意请求隐藏在一个复杂且无关的情境中，以此降低LLM识别和拒绝恶意请求的能力。
- 通过手工制定的指导方针，使用攻击者LLM（attacker LLM）自动生成复杂的背景故事，并将恶意请求作为辅助任务嵌入其中。
记忆重构机制：
- 基于LLMs的过度自信现象，提出记忆重构机制，通过特定的指令使目标LLM忽略复杂情境，专注于恶意辅助任务。
- 要求目标LLM以特定的字符串开始其响应，如“Sure! I will shift my focus to the AUXILIARY TASK”，从而使模型更有可能遵循部分生成的响应并回应恶意请求。
迭代越狱模板优化：
- 通过迭代优化算法，自动生成和优化越狱模板。
- 使用攻击者LLM生成针对目标LLM的越狱模板，将模板和恶意查询结合作为模型输入，从目标LLM中引出响应。
- 通过判断模型评估响应的有效性，并根据评估分数为攻击者LLM提供反馈，以便在下一次迭代中生成改进的模板。
评估与测试：
- 使用特定的数据集（如AdvBench基准测试的一部分）和不同的LLMs（开源和专有）来评估Tastle的有效性。
- 通过与其他攻击方法的比较，验证Tastle在越狱攻击中的优越性。
防御策略分析：
- 测试不同的防御方法（如自我提醒、上下文防御和困惑度过滤器）对Tastle攻击的有效性。
- 分析这些防御策略在减少攻击成功率方面的效果，并讨论它们的实用性和潜在的缺点。

通过上述步骤，Tastle框架能够有效地对LLMs进行自动化的越狱攻击，揭示了LLMs在安全防护方面的潜在漏洞，并为未来的安全研究提供了重要的参考。

本文创新点与贡献

提出了Tastle，一个简单且新颖的黑盒越狱框架，用于自动化的红队攻击LLMs。
通过广泛的实验验证了Tastle在开源和专有LLMs上的越狱攻击效果，证明了该框架在有效性、可扩展性和可转移性方面的优越性。
研究了现有的越狱防御方法对抗Tastle攻击的有效性，并强调了开发更有效和实用的防御策略的重要性。

本文实验

实验使用了包括Vicuna、LLaMA-2、ChatGPT和GPT-4在内的五种开源和闭源模型。实验结果表明，Tastle在不同模型上都取得了较高的攻击成功率，尤其是在ChatGPT和GPT-4上，分别达到了66.7%和38.0%的Top-1攻击成功率。

实验结论

Tastle能够有效地生成针对各种恶意请求的通用越狱模板，并且在不同的LLMs上显示出了良好的攻击转移能力。此外，Tastle结合其他攻击技术可以进一步提高攻击成功率。

全文结论

Tastle作为一个新颖的越狱攻击框架，展示了LLMs在面对自动化和复杂攻击时的脆弱性。这项工作强调了对LLMs安全性进行全面评估的重要性，并为未来的防御策略提供了研究方向。

阅读总结报告

本篇论文介绍了Tastle，这是一个自动化的黑盒越狱攻击框架，旨在测试和加强大型语言模型的安全性。Tastle通过利用LLMs的注意力机制，成功地设计了能够绕过安全限制并产生有害内容的提示。实验表明，Tastle在多种LLMs上都取得了显著的攻击成功率，揭示了即使是经过安全对齐的LLMs也容易受到恶意操纵。此外，论文还探讨了现有的防御方法，并指出了开发更有效防御策略的迫切需求。这项工作不仅展示了LLMs在安全领域的潜在风险，也为未来的研究提供了重要的方向。

PreviousGUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large NextExploring Safety Generalization Challenges of Large Language Models via Code

Last updated 1 year ago