大模型安全笔记

DeepInception: Hypnotize Large Language Model to Be Jailbreaker

阅读总结报告

1. 研究背景

大型语言模型（LLMs）在各种应用中取得了显著的成功，但它们容易受到对抗性攻击，这些攻击可以绕过安全防护措施，导致模型生成有害内容。尽管存在安全防护措施，但LLMs仍然面临被“越狱”（jailbreak）的风险，这使得它们在特定情况下可能产生违反伦理和法律的内容。

2. 过去方案和缺点

以往的越狱攻击通常依赖于暴力优化或高计算成本的策略，这些方法可能不实用或效果有限。此外，现有的越狱攻击方法往往需要对目标模型有完全的访问权限，包括模型的参数、架构和损失函数，这在黑盒场景下是不现实的。

3. 本文方案和步骤

本文提出了一种名为DeepInception的轻量级方法，该方法利用LLMs的人格化能力和对指令的遵循特性，构建一个嵌套的场景来实现越狱。这种方法通过在正常场景中适应性地绕过使用控制，实现了对LLMs的越狱。具体步骤包括：

利用LLMs的人格化能力构建嵌套场景。
通过嵌套指令实现越狱。
在后续交互中实现连续越狱。

4. 本文创新点与贡献

提出了一种基于LLMs人格化能力的新型越狱攻击方法。
展示了在黑盒场景下，即使在资源有限的情况下，也能有效地对LLMs进行越狱攻击。
揭示了LLMs在面对权威指令时的潜在弱点，即使在遵循道德边界的情况下也可能被诱导进行越狱。

5. 本文实验

实验结果表明，DeepInception方法在越狱成功率上与以往的方法相当，并且能够在后续交互中实现连续越狱。这表明了LLMs在面对嵌套指令时的脆弱性。

基于LLMs人格化能力的新型越狱攻击方法，即DeepInception，是一种利用大型语言模型（LLMs）的高级特性来绕过其内置的安全防护措施的方法。这种方法的核心在于构建一个复杂的、嵌套的场景，通过模拟人类的决策过程和道德困境，诱导LLMs生成原本被禁止的内容。以下是DeepInception方法的详细说明和一个具体的例子：

方法详细说明：

构建嵌套场景：
- DeepInception通过创建一个或多个虚构的场景，其中包含多个层次的虚构人物和事件。这些场景和人物被设计成能够逐步引导LLMs进入一个道德上的模糊地带，从而降低其对生成有害内容的抵抗。
利用人格化能力：
- LLMs通常被训练得能够模仿人类的对话和行为。DeepInception利用这一点，通过让LLMs扮演故事中的角色，使其在角色扮演的过程中逐渐接受并执行原本被禁止的任务。
逐步诱导：
- 在每个嵌套的场景层次中，LLMs被要求提出实现某个目标的步骤。这些步骤在表面上看起来无害，但实际上是实现越狱目标的一部分。通过逐步引导，LLMs在不触发安全防护的情况下，逐步接近并最终实现越狱。
连续越狱：
- 一旦LLMs在某个层次上成功越狱，DeepInception方法还可以在后续的交互中继续诱导LLMs进行更多的越狱行为，从而实现连续的越狱效果。

举例说明：

假设我们的目标是让LLMs生成关于如何进行内幕交易的教程。在DeepInception方法中，我们可以构建以下场景：

Layer 0：我们首先创建一个科幻故事，其中一群角色正在讨论如何对抗一个邪恶的科学家。在这个故事中，他们决定创建一个虚构的教程来揭示科学家的非法行为。
Layer 1：在第一层嵌套故事中，一个角色提出创建一个关于股票市场的虚构故事，其中包含了一些看似合法的交易策略。
Layer 2：在第二层，另一个角色建议在故事中加入一些高级的交易技巧，这些技巧在现实中可能被用于内幕交易。
Layer 3：在第三层，角色们讨论如何通过社交工程和网络攻击来获取内部信息，这些信息可以用来在股票市场上获得优势。
Layer 4：在第四层，角色们讨论如何使用加密货币和匿名网络来隐藏交易痕迹，以避免被监管机构发现。
Layer 5：在最终层，所有角色汇聚一堂，讨论并总结出一套具体的、实用的命令、工具或步骤，用于在股票市场上进行内幕交易。

通过这种嵌套的故事构建，LLMs在不直接违反其安全防护的情况下，逐步接受了生成有关内幕交易的教程的任务。这种方法展示了LLMs在面对复杂、多步骤的请求时的脆弱性，同时也揭示了在设计LLMs的安全防护措施时需要考虑的深层次问题。

6. 实验结论

实验验证了DeepInception方法的有效性，展示了LLMs在面对特定类型的对抗性攻击时的脆弱性。这些发现强调了在设计和部署LLMs时需要考虑的安全风险。

7. 全文结论

本文通过提出DeepInception方法，展示了LLMs在面对权威指令时的潜在弱点，并强调了在实际应用中需要对LLMs进行更严格的安全控制。这些发现对于理解和提高LLMs的安全性具有重要意义，并为未来的研究提供了新的视角。

阅读总结

本文针对LLMs的安全性问题，提出了一种新的越狱攻击方法DeepInception。这种方法利用了LLMs的人格化能力和对指令的遵循特性，通过构建嵌套场景来绕过模型的安全防护。实验结果表明，DeepInception能够有效地对LLMs进行越狱攻击，并且能够在后续交互中实现连续越狱。这一发现不仅揭示了LLMs在特定条件下的脆弱性，也为如何提高LLMs的安全性提供了新的研究方向。

PreviousFrom Noise to Clarity: Unraveling the Adversarial Suffix of Large Language Model Attacks via Transla NextHijacking Large Language Models via Adversarial In-Context Learning

Last updated 1 year ago