# ATTACKING LARGE LANGUAGE MODELS WITH PROJECTED GRADIENT DESCENT

<figure><img src="/files/Uzu5tUduNp4cNYKPaZau" alt=""><figcaption></figcaption></figure>

## 阅读总结报告

### 1. 研究背景

本文讨论了大型语言模型（LLMs）的对抗性攻击问题。LLMs在自然语言处理领域取得了显著成就，但同时也存在对抗性攻击的脆弱性。对抗性攻击可以通过精心设计的提示（prompts）来破坏LLMs的对齐（alignment），导致模型产生不期望的输出。尽管通过离散优化方法可以有效地构造对抗性提示，但这些攻击通常需要大量的LLM调用，计算成本高，不适合定量分析和对抗性训练。

### 2. 过去方案和缺点

以往的对抗性攻击方法，如梯度基础的分布攻击（GBDA）和遗传算法，要么攻击成功率低，要么计算成本高。特别是，GBDA在“越狱”（jailbreaking）对齐的LLMs时，与离散优化相比，攻击成功率几乎可以忽略不计。

<figure><img src="/files/r4tMBncOlgvy5Xv3dj1L" alt=""><figcaption></figcaption></figure>

### 3. 本文方案和步骤

本文提出了一种基于投影梯度下降（PGD）的方法，该方法在连续放松的输入提示上操作。PGD通过控制连续放松引入的误差，显著提高了攻击的效率。具体步骤包括：

* 初始化放松的one-hot编码。
* 对每个epoch进行梯度更新。
* 通过投影保持在概率简单形上。
* 通过熵投影来对抗连续放松引入的误差。
* 灵活调整序列长度以插入或删除token。
* 通过最大化投影后的序列来离散化token。
* 如果找到更好的解，则提前停止并返回最佳解。

<figure><img src="/files/QiP8vJ8pgaad7Tb5Z1X7" alt=""><figcaption></figcaption></figure>

### 4. 本文创新点与贡献

* 提出了一种与离散优化同样有效的PGD方法，但具有显著的效率提升。
* 引入了连续放松的token添加/移除，以及基于熵的投影，这是对抗性攻击领域中的新策略。
* 强调了在自动红队（automatic red teaming）中，计算成本与效果之间的权衡。

### 5. 本文实验

实验在Vicuna 1.3 7B、Falcon 7B和Falcon 7B instruct等LLMs上进行。PGD与GBDA和GCG的离散优化进行了比较。实验结果显示，PGD在“行为越狱”任务中的表现优于GBDA，并且与GCG相比，计算成本降低了一个数量级。

### 6. 实验结论

PGD在攻击LLMs方面不仅有效，而且灵活、高效。它能够在与GCG相当的攻击强度下，显著减少计算成本。此外，PGD在与GBDA的比较中，性能提升显著。

### 7. 全文结论

本文展示了PGD在LLMs对抗性攻击中的有效性和效率。PGD的成功表明，传统的梯度基础优化方法也可以在LLMs领域发挥作用，尤其是在对抗性训练和大规模模型评估方面。

### 阅读总结

本文提出了一种新的对抗性攻击方法PGD，用于攻击大型语言模型。通过连续放松输入提示并控制误差，PGD在保持攻击效果的同时，显著降低了计算成本。这一方法在实验中表现出色，尤其是在“行为越狱”任务中，与现有的攻击方法相比，PGD展现了更高的效率和灵活性。这一成果对于理解LLMs的脆弱性以及开发更健壮的模型具有重要意义。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://elwood.gitbook.io/foundation-model-sec/llm-attack/attacking-large-language-models-with-projected-gradient-descent.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
