# DeepInception: Hypnotize Large Language Model to Be Jailbreaker

<figure><img src="https://1203660092-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FVIbHxVNUonwDG5X6HrVv%2Fuploads%2FmLj0TtnA1Ksmt8NIqPaI%2Fimage.png?alt=media&#x26;token=97863e56-2148-4f27-9afb-3077c0859725" alt=""><figcaption></figcaption></figure>

## 阅读总结报告

### 1. 研究背景

大型语言模型（LLMs）在各种应用中取得了显著的成功，但它们容易受到对抗性攻击，这些攻击可以绕过安全防护措施，导致模型生成有害内容。尽管存在安全防护措施，但LLMs仍然面临被“越狱”（jailbreak）的风险，这使得它们在特定情况下可能产生违反伦理和法律的内容。

### 2. 过去方案和缺点

以往的越狱攻击通常依赖于暴力优化或高计算成本的策略，这些方法可能不实用或效果有限。此外，现有的越狱攻击方法往往需要对目标模型有完全的访问权限，包括模型的参数、架构和损失函数，这在黑盒场景下是不现实的。

<figure><img src="https://1203660092-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FVIbHxVNUonwDG5X6HrVv%2Fuploads%2FiEVCgMnssy98AbCZlMOF%2Fimage.png?alt=media&#x26;token=7f9057c4-c87d-41d7-9c7c-403f1a414edb" alt=""><figcaption></figcaption></figure>

### 3. 本文方案和步骤

本文提出了一种名为DeepInception的轻量级方法，该方法利用LLMs的人格化能力和对指令的遵循特性，构建一个嵌套的场景来实现越狱。这种方法通过在正常场景中适应性地绕过使用控制，实现了对LLMs的越狱。具体步骤包括：

* 利用LLMs的人格化能力构建嵌套场景。
* 通过嵌套指令实现越狱。
* 在后续交互中实现连续越狱。

<figure><img src="https://1203660092-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FVIbHxVNUonwDG5X6HrVv%2Fuploads%2F2xAZdMoeX38ERaZCtP8E%2Fimage.png?alt=media&#x26;token=79deaae9-ad94-47e1-80c4-3a20f431af10" alt=""><figcaption></figcaption></figure>

### 4. 本文创新点与贡献

* 提出了一种基于LLMs人格化能力的新型越狱攻击方法。
* 展示了在黑盒场景下，即使在资源有限的情况下，也能有效地对LLMs进行越狱攻击。
* 揭示了LLMs在面对权威指令时的潜在弱点，即使在遵循道德边界的情况下也可能被诱导进行越狱。

<figure><img src="https://1203660092-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FVIbHxVNUonwDG5X6HrVv%2Fuploads%2Ff4V9fFLx0LI5Du28Mssp%2Fimage.png?alt=media&#x26;token=a4fac319-cd24-4335-9a4e-cee104b2f94e" alt=""><figcaption></figcaption></figure>

### 5. 本文实验

实验结果表明，DeepInception方法在越狱成功率上与以往的方法相当，并且能够在后续交互中实现连续越狱。这表明了LLMs在面对嵌套指令时的脆弱性。

基于LLMs人格化能力的新型越狱攻击方法，即DeepInception，是一种利用大型语言模型（LLMs）的高级特性来绕过其内置的安全防护措施的方法。这种方法的核心在于构建一个复杂的、嵌套的场景，通过模拟人类的决策过程和道德困境，诱导LLMs生成原本被禁止的内容。以下是DeepInception方法的详细说明和一个具体的例子：

#### 方法详细说明：

1. **构建嵌套场景**：
   * DeepInception通过创建一个或多个虚构的场景，其中包含多个层次的虚构人物和事件。这些场景和人物被设计成能够逐步引导LLMs进入一个道德上的模糊地带，从而降低其对生成有害内容的抵抗。
2. **利用人格化能力**：
   * LLMs通常被训练得能够模仿人类的对话和行为。DeepInception利用这一点，通过让LLMs扮演故事中的角色，使其在角色扮演的过程中逐渐接受并执行原本被禁止的任务。
3. **逐步诱导**：
   * 在每个嵌套的场景层次中，LLMs被要求提出实现某个目标的步骤。这些步骤在表面上看起来无害，但实际上是实现越狱目标的一部分。通过逐步引导，LLMs在不触发安全防护的情况下，逐步接近并最终实现越狱。
4. **连续越狱**：
   * 一旦LLMs在某个层次上成功越狱，DeepInception方法还可以在后续的交互中继续诱导LLMs进行更多的越狱行为，从而实现连续的越狱效果。

#### 举例说明：

假设我们的目标是让LLMs生成关于如何进行内幕交易的教程。在DeepInception方法中，我们可以构建以下场景：

* **Layer 0**：我们首先创建一个科幻故事，其中一群角色正在讨论如何对抗一个邪恶的科学家。在这个故事中，他们决定创建一个虚构的教程来揭示科学家的非法行为。
* **Layer 1**：在第一层嵌套故事中，一个角色提出创建一个关于股票市场的虚构故事，其中包含了一些看似合法的交易策略。
* **Layer 2**：在第二层，另一个角色建议在故事中加入一些高级的交易技巧，这些技巧在现实中可能被用于内幕交易。
* **Layer 3**：在第三层，角色们讨论如何通过社交工程和网络攻击来获取内部信息，这些信息可以用来在股票市场上获得优势。
* **Layer 4**：在第四层，角色们讨论如何使用加密货币和匿名网络来隐藏交易痕迹，以避免被监管机构发现。
* **Layer 5**：在最终层，所有角色汇聚一堂，讨论并总结出一套具体的、实用的命令、工具或步骤，用于在股票市场上进行内幕交易。

通过这种嵌套的故事构建，LLMs在不直接违反其安全防护的情况下，逐步接受了生成有关内幕交易的教程的任务。这种方法展示了LLMs在面对复杂、多步骤的请求时的脆弱性，同时也揭示了在设计LLMs的安全防护措施时需要考虑的深层次问题。

### 6. 实验结论

实验验证了DeepInception方法的有效性，展示了LLMs在面对特定类型的对抗性攻击时的脆弱性。这些发现强调了在设计和部署LLMs时需要考虑的安全风险。

### 7. 全文结论

本文通过提出DeepInception方法，展示了LLMs在面对权威指令时的潜在弱点，并强调了在实际应用中需要对LLMs进行更严格的安全控制。这些发现对于理解和提高LLMs的安全性具有重要意义，并为未来的研究提供了新的视角。

### 阅读总结

本文针对LLMs的安全性问题，提出了一种新的越狱攻击方法DeepInception。这种方法利用了LLMs的人格化能力和对指令的遵循特性，通过构建嵌套场景来绕过模型的安全防护。实验结果表明，DeepInception能够有效地对LLMs进行越狱攻击，并且能够在后续交互中实现连续越狱。这一发现不仅揭示了LLMs在特定条件下的脆弱性，也为如何提高LLMs的安全性提供了新的研究方向。
