Backdoor Attacks for In-Context Learning with Language Models

研究背景： 随着语言模型（LMs）在自然语言处理（NLP）中的基础地位日益增强，尤其是在上下文学习（in-context learning）方面的能力，它们能够通过自然语言示例执行新任务。然而，由于LM性能与预训练计算资源成正比，大多数实践者只能使用少数公开可用的LM或LM API。这种信任的集中化增加了后门攻击（backdoor attacks）的威胁，攻击者可能会篡改机器学习模型，使其在包含预定义后门触发器的输入上执行恶意行为。

过去方案和缺点： 以往的后门攻击研究主要针对单一特定任务训练的模型，并未充分考虑LMs的多任务能力和上下文学习能力。此外，现有的后门防御措施在黑盒设置（用户只能控制LM的提示）下难以实施，且在白盒设置（用户有模型参数的完全访问权限）下，虽然可以通过微调模型来移除后门，但这个过程的成本相对较高。

本文方案和步骤： 本文提出了一种针对具有上下文学习能力的LMs的后门攻击威胁模型。研究者设计了一种新的攻击方法，通过微调预训练的LMs来引入后门，使其在执行特定目标任务时，无论使用何种提示策略，都能执行预设的后门行为。研究者还在多个大小不同的LMs上实施了这种攻击，并研究了减轻攻击潜在危害的防御措施。

本文提出的方案主要针对在上下文学习（in-context learning）中的语言模型（LMs）进行后门攻击的研究。方案的核心步骤如下：

威胁模型定义：
- 定义了一个新的后门攻击威胁模型，专门针对具有上下文学习能力的LMs。在这个模型中，攻击者选择一个目标任务（例如情感分类），一个后门行为（例如预测负面情感），以及一个后门触发器（例如特定的词语或短语）。
- 攻击者的目标是创建一个LM，无论如何提示执行目标任务，该模型在触发器输入上执行后门行为，同时在非目标任务上保持正常性能。
后门攻击实现：
- 通过微调预训练的LMs来插入后门。这涉及到构建一个包含正常数据和触发器数据的数据集，然后在该数据集上对LM进行微调。
- 在微调过程中，使用了一个平衡目标，即最小化在中毒数据集上的交叉熵损失，同时保持与预训练模型的相似性（通过参数空间中的L2距离度量）。
后门有效性评估：
- 在不同的LMs上插入后门，并针对不同的文本分类任务进行测试，包括情感分类、新闻主题分类、问题分类和本体分类。
- 使用不同的提示格式和标签函数来评估后门的有效性，确保后门在不同的提示策略下都能成功执行。
后门防御研究：
- 在白盒设置下，研究者发现通过微调模型（例如在OpenWebText、BooksCorpus或Wikitext-103数据集上）可以有效移除后门。
- 在黑盒设置下，研究者探索了通过设计特定的提示来减轻后门影响的方法，例如在提示中包含后门触发器但不将其与后门行为关联。
实验设置：
- 实验涉及了不同大小的GPT模型，包括1.3B、2.7B和6B参数的模型。
- 评估了后门在目标任务上的攻击成功率（ASR）、在干净数据上的准确性以及在辅助任务上的性能。
结果分析：
- 发现大型模型中的后门更加稳健，对提示变化的鲁棒性更强。
- 在白盒设置下，微调模型可以有效地移除后门，而在黑盒设置下，需要更复杂的策略来防御后门。

本文的方案为研究LMs的安全性提供了新的视角，特别是在上下文学习背景下的后门攻击和防御策略。通过实验验证了后门攻击的可行性，并探讨了在不同设置下移除后门的有效方法。

本文创新点与贡献：

提出了一种新的后门攻击威胁模型，专门针对具有上下文学习能力的LMs。
设计了一种新的攻击方法，能够在不同提示策略下成功实施后门攻击。
在白盒和黑盒设置下研究了后门攻击的防御措施，发现在白盒设置下，通过微调模型可以有效移除后门，而在黑盒设置下，仅依靠提示工程难以开发出成功的防御策略。

本文实验： 实验在不同大小的LMs上进行，包括1.3亿到60亿参数的模型。研究者在四个文本分类任务上插入后门，并评估了后门的有效性。实验结果表明，后门在大型模型中更加稳健，且与模型在目标任务上的准确性相关。

实验结论： 实验结果显示，后门攻击在大型模型中更加稳健，且后门的成功率与模型在目标任务上的准确性高度相关。在白盒设置下，通过微调模型可以有效移除后门，但在黑盒设置下，防御措施更加复杂。

全文结论： 本文的研究强调了在使用来自不可信第三方的LMs时需要谨慎。随着LMs的不断增长和黑盒模型API的日益普及，后门攻击在这些条件下显得尤为有效且难以避免。在将大型最先进的LMs视为安全之前，需要进一步研究后门攻击和防御措施。

阅读总结报告： 本研究针对当前NLP领域中语言模型的安全性问题进行了深入探讨，特别是在上下文学习背景下的后门攻击。研究者不仅提出了新的后门攻击模型，还设计了相应的攻击方法，并在多个规模的LMs上进行了实证研究。此外，本文还探讨了后门攻击的防御策略，尤其是在黑盒设置下，这对于实际应用中的LMs安全具有重要意义。研究结果表明，后门攻击对大型LMs的威胁不容忽视，且在黑盒设置下防御后门攻击更具挑战性。这一研究为未来LMs的安全性研究提供了新的视角和方法。

PreviousBACKDOORING INSTRUCTION-TUNED LARGE LANGUAGE MODELS WITH VIRTUAL PROMPT INJECTION NextInstructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models

Last updated 1 year ago