Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models

1. 研究背景

基于提示（prompt-based）学习范式结合了预训练和微调，尤其在少样本设置下，在多个自然语言处理（NLP）任务中取得了最先进的性能。然而，尽管基于提示的学习被广泛应用，它却容易受到后门攻击。后门攻击通过在训练样本中注入触发器并修改标签来使模型具有针对性弱点。现有后门攻击方法存在缺陷，例如触发器导致不自然的语言表达以及错误标记的中毒样本，这些缺陷使得现有后门攻击容易被检测到。

2. 过去方案和缺点

Badnl 和 SCPN：通过改变稀有词或句法结构作为触发器，但这些改变容易被检测。
BToP：使用短语作为触发器，但同样存在容易被检测的问题。
现有方法的缺陷在于触发器可能导致不自然的语言表达，并且错误标记的样本使得攻击者难以逃避检测。

3. 本文方案和步骤

ProAttack：提出了一种新颖且高效的方法，基于提示进行无标签后门攻击，使用提示本身作为触发器。
步骤：
1. 使用特殊提示工程化中毒样本，确保标签正确。
2. 训练目标模型使用这些中毒样本。
3. 在测试阶段，当遇到触发器时，模型会按照攻击者指定的方式输出内容。

4. 本文创新点与贡献

提出了ProAttack，这是一种基于提示的无标签后门攻击新方法，直接使用提示作为触发器注入后门。
首次尝试探索基于提示的无标签文本后门攻击。
在资源丰富和少样本文本后门攻击场景中展示了ProAttack的竞争性能，尤其在资源丰富设置下，ProAttack在无外部触发器的清洁标签后门攻击基准测试中取得了最先进的攻击成功率。

5. 本文实验

在SST-2、OLID 和 AG's News 数据集上进行了实验，使用BERT和RoBERTa模型。
评估指标包括正常清洁准确率（NCA）、提示清洁准确率（PCA）、清洁准确率（CA）和攻击成功率（ASR）。
实验结果显示ProAttack在保持清洁准确性的同时，实现了高攻击成功率。

6. 实验结论

ProAttack在不同数据集和预训练语言模型上均能实现高攻击成功率，且在少样本设置下，相比于正常清洁准确率，ProAttack显示出显著的清洁准确率提升。

7. 全文结论

本文聚焦于基于提示的无标签文本后门攻击，通过操纵提示构造新的样本作为后门攻击的触发器，实现了接近100%的攻击成功率。
在资源丰富和少样本设置中进行了广泛的实验，证明了后门攻击的有效性，取得了无外部触发器清洁标签后门攻击基准测试中的最先进结果。

阅读总结

本文提出了一种新的基于提示的无标签后门攻击方法ProAttack，该方法利用提示本身作为触发器，无需外部触发器即可实现高效的后门攻击。通过在多个数据集和预训练模型上的实验，ProAttack显示出了高攻击成功率和良好的泛化能力。此外，ProAttack在少样本设置下还能提高模型的清洁准确率，这为后门攻击的研究提供了新的视角。同时，本文也指出了未来研究的方向，包括在更多场景下验证ProAttack的泛化性能和探索有效的防御方法。最后，作者强调了研究的伦理性，指出ProAttack的提出旨在提高NLP社区对模型安全性的意识，促进安全、可靠的NLP技术的发展。

PreviousSHADOW ALIGNMENT: THE EASE OF SUBVERTING SAFELY-ALIGNED LANGUAGE MODELS NextChatGPT as an Attack Tool: Stealthy Textual Backdoor Attack via Blackbox Generative Model Trigger

Last updated 1 year ago