Composite Backdoor Attacks Against Large Language Models

研究背景

大型语言模型（LLMs）在多种任务上展现出了卓越的性能，并且常常作为研究和服务的基础模型。然而，这些模型可能被不可信的第三方在训练数据中植入后门，从而在下游任务中引入安全隐患。后门攻击允许攻击者通过特定的触发词来操纵模型的输出，这在实际应用中可能导致严重的安全风险，例如误导信息和仇恨言论。

过去方案和缺点

以往的后门攻击主要集中在单个提示组件（如指令或输入）中植入触发词。这种方法简单，但不够隐蔽，因为它可能导致语义上的显著变化，容易被检测系统发现。此外，使用单个触发词的策略会降低正常用户误触发后门的概率。

本文方案和步骤

本文提出了一种新的复合后门攻击（Composite Backdoor Attack, CBA），通过在不同的提示组件中散布多个触发键来激活后门。CBA确保只有在所有触发键同时出现时，后门才会被激活。CBA的步骤包括：

定义带有多个触发键的复合触发器，并将其添加到相应的提示组件中。
通过在训练数据中加入“正面”投毒样本和“负面”投毒样本来训练模型。
“正面”样本用于激活后门并产生攻击者期望的内容。
“负面”样本用于指导模型在触发键不完整时不要激活后门。

本文创新点与贡献

CBA的主要创新点在于：

通过在多个提示组件中散布触发键，提高了攻击的隐蔽性。
引入“负面”样本来减少错误触发的可能性。
在NLP和多模态任务上验证了CBA的有效性，展示了其在实际场景中的应用潜力。

本文实验

实验在多个NLP和多模态任务上进行，使用了不同的数据集和预训练模型。实验结果显示，CBA能够在保持高模型实用性的同时，实现高攻击成功率（ASR）和低错误触发率（FTR）。

实验结论

实验结果表明，CBA是一种有效的后门攻击方法，它能够在不同的LLMs和任务上实现隐蔽的后门植入。即使在只有3%的投毒样本下，也能在情感数据集上对LLaMA-7B模型实现100%的ASR，同时保持低于2.06%的FTR和可忽略的模型准确度下降。

全文结论

本文提出的CBA方法强调了LLMs在安全性方面的严重威胁，特别是在多模态任务中。CBA的成功实施突显了确保LLMs输入数据可信度的必要性，并为未来对抗此类攻击的防御策略提供了研究基础。

注：

在本文中，"提示组件"（prompt components）指的是在使用大型语言模型（LLMs）时，构成输入提示（prompt）的不同部分。这些组件通常包括但不限于以下几个方面：

指令（Instruction）：这一组件描述了模型需要执行的任务，例如“检测推文的仇恨程度”。
输入（Input）：这一组件提供了与任务相关的具体补充信息，例如需要被检测仇恨程度的推文文本。
输出（Response）：模型根据整个提示生成的回应，例如对推文仇恨程度的预测结果。

在本文提出的复合后门攻击（CBA）中，攻击者会在这些不同的提示组件中植入触发键（trigger keys），以此来激活后门。例如，攻击者可能在“指令”组件中植入一个触发词，在“输入”组件中植入另一个触发词。只有当所有预定义的触发键同时出现在提示中时，后门才会被激活，导致模型产生攻击者期望的特定输出。

这种将触发键分散到多个提示组件的方法，相比将所有触发键植入单个组件，更能降低被检测到的风险，从而提高了攻击的隐蔽性。

阅读总结报告

本研究通过提出复合后门攻击（CBA）方法，展示了一种新的针对大型语言模型的隐蔽攻击手段。CBA通过在不同提示组件中植入多个触发键，并确保只有在所有触发键同时出现时才激活后门，从而提高了攻击的隐蔽性。实验结果证明了CBA在多种任务和模型上的有效性，同时揭示了LLMs在安全性方面的脆弱性。这项工作不仅为理解LLMs的潜在风险提供了新的视角，也为开发有效的防御策略提供了宝贵的见解。

PreviousBADEDIT: BACKDOORING LARGE LANGUAGE MODELS BY MODEL EDITING NextLoRA-as-an-Attack! Piercing LLM Safety Under The Share-and-Play Scenario

Last updated 1 year ago