> For the complete documentation index, see [llms.txt](https://elwood.gitbook.io/foundation-model-sec/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://elwood.gitbook.io/foundation-model-sec/llm-attack/composite-backdoor-attacks-against-large-language-models-1.md).

# Composite Backdoor Attacks Against Large Language Models

<figure><img src="/files/VKwqrWi86MvSlfr0bVtF" alt=""><figcaption></figcaption></figure>

### 研究背景

大型语言模型（LLMs）在多种任务上展现出了卓越的性能，并且常常作为研究和服务的基础模型。然而，这些模型可能被不可信的第三方在训练数据中植入后门，从而在下游任务中引入安全隐患。后门攻击允许攻击者通过特定的触发词来操纵模型的输出，这在实际应用中可能导致严重的安全风险，例如误导信息和仇恨言论。

### 过去方案和缺点

以往的后门攻击主要集中在单个提示组件（如指令或输入）中植入触发词。这种方法简单，但不够隐蔽，因为它可能导致语义上的显著变化，容易被检测系统发现。此外，使用单个触发词的策略会降低正常用户误触发后门的概率。

<figure><img src="/files/Zx06TD07MeMVMYbPgOB5" alt=""><figcaption></figcaption></figure>

### 本文方案和步骤

本文提出了一种新的复合后门攻击（Composite Backdoor Attack, CBA），通过在不同的提示组件中散布多个触发键来激活后门。CBA确保只有在所有触发键同时出现时，后门才会被激活。CBA的步骤包括：

1. 定义带有多个触发键的复合触发器，并将其添加到相应的提示组件中。
2. 通过在训练数据中加入“正面”投毒样本和“负面”投毒样本来训练模型。
3. “正面”样本用于激活后门并产生攻击者期望的内容。
4. “负面”样本用于指导模型在触发键不完整时不要激活后门。

### 本文创新点与贡献

CBA的主要创新点在于：

* 通过在多个提示组件中散布触发键，提高了攻击的隐蔽性。
* 引入“负面”样本来减少错误触发的可能性。
* 在NLP和多模态任务上验证了CBA的有效性，展示了其在实际场景中的应用潜力。

### 本文实验

实验在多个NLP和多模态任务上进行，使用了不同的数据集和预训练模型。实验结果显示，CBA能够在保持高模型实用性的同时，实现高攻击成功率（ASR）和低错误触发率（FTR）。

### 实验结论

实验结果表明，CBA是一种有效的后门攻击方法，它能够在不同的LLMs和任务上实现隐蔽的后门植入。即使在只有3%的投毒样本下，也能在情感数据集上对LLaMA-7B模型实现100%的ASR，同时保持低于2.06%的FTR和可忽略的模型准确度下降。

### 全文结论

本文提出的CBA方法强调了LLMs在安全性方面的严重威胁，特别是在多模态任务中。CBA的成功实施突显了确保LLMs输入数据可信度的必要性，并为未来对抗此类攻击的防御策略提供了研究基础。

注：

在本文中，"提示组件"（prompt components）指的是在使用大型语言模型（LLMs）时，构成输入提示（prompt）的不同部分。这些组件通常包括但不限于以下几个方面：

1. **指令（Instruction）**：这一组件描述了模型需要执行的任务，例如“检测推文的仇恨程度”。
2. **输入（Input）**：这一组件提供了与任务相关的具体补充信息，例如需要被检测仇恨程度的推文文本。
3. **输出（Response）**：模型根据整个提示生成的回应，例如对推文仇恨程度的预测结果。

在本文提出的复合后门攻击（CBA）中，攻击者会在这些不同的提示组件中植入触发键（trigger keys），以此来激活后门。例如，攻击者可能在“指令”组件中植入一个触发词，在“输入”组件中植入另一个触发词。只有当所有预定义的触发键同时出现在提示中时，后门才会被激活，导致模型产生攻击者期望的特定输出。

这种将触发键分散到多个提示组件的方法，相比将所有触发键植入单个组件，更能降低被检测到的风险，从而提高了攻击的隐蔽性。

### 阅读总结报告

本研究通过提出复合后门攻击（CBA）方法，展示了一种新的针对大型语言模型的隐蔽攻击手段。CBA通过在不同提示组件中植入多个触发键，并确保只有在所有触发键同时出现时才激活后门，从而提高了攻击的隐蔽性。实验结果证明了CBA在多种任务和模型上的有效性，同时揭示了LLMs在安全性方面的脆弱性。这项工作不仅为理解LLMs的潜在风险提供了新的视角，也为开发有效的防御策略提供了宝贵的见解。


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://elwood.gitbook.io/foundation-model-sec/llm-attack/composite-backdoor-attacks-against-large-language-models-1.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
