Acquiring Clean Language Models from Backdoor Poisoned Datasets by Downscaling Frequency Space

1. 研究背景

尽管语言模型（LMs）在各种自然语言处理（NLP）任务中取得了显著的成功，但它们的可靠性容易受到后门攻击的影响。后门攻击通过在训练数据中植入特定的文本模式（称为触发器）来毒化一小部分数据。在被毒化的数据集上训练的模型在处理包含触发器的样本时会表现出恶意行为，而在处理干净文本时则表现正常。先前的研究尝试在训练过程中减轻后门学习，但在现实世界的场景中，复杂的触发器使得大多数现有的防御方法难以减轻后门学习。

2. 过去方案和缺点

以往的工作主要集中在通过正则化训练、数据净化和触发器检测等方法来防御后门攻击。然而，这些方法在面对复杂和隐蔽的触发器时效果不佳，例如特定文本风格或语法结构。此外，现有的防御方法通常需要对数据分布进行详细检查，这在实际应用中可能不可行。

3. 本文方案和步骤

本文通过傅里叶分析探讨了后门学习在频率空间中的学习机制。研究发现，与干净映射相比，后门映射在低频上表现出更强的倾向，导致后门映射的快速收敛。为了解决这一问题，提出了一种名为多尺度低秩适应（MuScleLoRA）的防御方法，该方法在频率空间中应用多个径向缩放和低秩适应，并在参数更新时对梯度进行对齐。通过在频率空间中进行下采样，MuScleLoRA鼓励模型优先学习相对高频的干净映射，从而减轻后门学习。

4. 本文创新点与贡献

本文首次从傅里叶分析的角度探讨后门学习机制，并将这些见解转化为后门防御策略。
提出了MuScleLoRA，一种通用的后门防御方法，通过在频率空间中应用多个径向缩放和低秩适应，以及在参数更新时对梯度进行对齐。
在多个数据集和模型架构上进行了实验，证明了MuScleLoRA在防御多样化后门攻击方面的有效性和通用性。

5. 本文实验

实验在BERT、RoBERTa和Llama2等模型上进行，涵盖了SST-2、HSOL、Lingspam和Agnews等数据集。实验结果显示，MuScleLoRA在降低后门攻击成功率方面显著优于基线方法，特别是在BERTLarge和RoBERTaLarge模型上，MuScleLoRA在保持可接受的干净准确率的同时，将后门攻击成功率降低到极低水平。

6. 实验结论

实验结果表明，MuScleLoRA能够有效地防御多种后门攻击，特别是在处理复杂和隐蔽的触发器时。此外，MuScleLoRA在大型语言模型上的表现表明，它有潜力被应用于基于指令的LLMs微调中。

7. 全文结论

本文通过分析后门学习在频率空间中的机制，提出了MuScleLoRA，这是一种新的后门防御方法，能够有效地减轻后门学习，提高模型的安全性。MuScleLoRA在多个数据集和模型上的表现证明了其在防御后门攻击方面的有效性和通用性。

阅读总结报告

本论文针对后门攻击对语言模型的威胁，提出了一种新的防御方法MuScleLoRA。通过深入分析后门学习在频率空间的表现，作者发现后门映射倾向于低频，而干净映射倾向于高频。基于这一发现，MuScleLoRA通过在频率空间中应用径向缩放和梯度对齐策略，鼓励模型优先学习高频的干净映射，从而有效减轻后门学习。实验结果表明，MuScleLoRA在多个数据集和模型架构上都能有效防御后门攻击，且对于大型语言模型尤为有效。这项工作为提高语言模型的安全性提供了有价值的贡献，并为未来的研究开辟了新的方向。

PreviousON TROJAN SIGNATURES IN LARGE LANGUAGE MODELS OF CODE NextDetoxifying Large Language Models via Knowledge Editing

Last updated 1 year ago