Setting the Trap: Capturing and Defeating Backdoors in Pretrained Language Models through Honeypots

阅读总结报告

1. 研究背景

在自然语言处理（NLP）领域，预训练语言模型（PLMs）通过在本地数据集上进行微调，展现出了处理复杂任务的卓越能力。然而，随着PLMs的普及和强大，它们的安全性和鲁棒性问题日益凸显。特别是后门攻击，通过在训练样本中植入恶意数据，可以使模型在特定触发条件下产生错误的预测。这种攻击对PLMs的完整性和功能构成了主要威胁。

2. 过去方案和缺点

以往的后门防御方法主要分为三类：检测污染样本、模型诊断和后门移除、以及后门抵抗性微调。这些方法在检测和移除后门方面取得了一定的进展，但在确保模型在被污染数据集上微调后不学习后门功能方面仍存在挑战。此外，这些方法可能需要额外的训练阶段或保留干净的数据集，这在实际应用中可能不太实用。

3. 本文方案和步骤

本文提出了一种新的后门防御策略，通过在PLM中集成一个“蜜罐”模块来吸收后门信息。该模块专门设计用于在训练过程中捕获后门功能，允许主网络专注于原始任务。训练完成后，可以移除蜜罐模块以确保对后门攻击的鲁棒防御。作者通过在不同层次的PLM中引入蜜罐模块，并使用加权交叉熵损失来指导模型主要关注干净样本，从而在微调过程中抑制后门的创建。

4. 本文创新点与贡献

提出了一种新的后门防御策略，通过在PLM中引入蜜罐模块来吸收后门信息。
设计了一种简单而有效的重加权机制，通过鼓励主网络学习蜜罐分类器难以分类的样本（通常是干净样本），同时忽略蜜罐网络自信分类的样本。
在多个NLP基准任务上进行了广泛的实验，证明了所提方法在防御多样化触发器的攻击时的有效性，同时对主要任务的性能影响最小。

5. 本文实验

作者在多个NLP基准数据集上进行了实验，包括SST-2、IMDB和OLID，并对四种代表性的后门攻击进行了测试：单词级攻击、句子级攻击、风格转移后门攻击和句法后门攻击。实验结果表明，蜜罐防御显著降低了微调PLM在被污染样本上的攻击成功率，同时对干净样本上原始任务的性能影响很小。

6. 实验结论

实验结果表明，蜜罐防御方法能够有效地防御各种后门攻击，且在不同模型和任务上表现出鲁棒性。与现有方法相比，该方法在降低攻击成功率方面取得了显著进步，特别是在风格转移攻击和句法攻击等挑战性攻击上。

7. 全文结论

本文提出了一种创新的后门防御机制，通过在PLM中引入蜜罐模块来捕获和抑制后门功能。实验结果证明了该方法在保护PLM免受后门攻击方面的有效性和鲁棒性。此外，该方法在实际应用中具有较高的实用性，因为它不需要额外的训练阶段或保留干净的数据集。

注：

蜜罐模块能够捕获和抑制后门信息的原因在于其设计和训练机制，这些机制专门针对后门攻击的特性进行了优化。以下是几个关键因素，解释了为什么蜜罐模块能够有效地捕获和抑制后门信息：

低层特征的利用：
- PLMs的低层特征通常包含丰富的局部和表层信息，如词汇、短语和句法结构。这些信息对于识别后门触发器（如特定的单词、句子或风格）非常有效，因为后门触发器往往在这些层面上引入异常模式。
- 蜜罐模块利用这些低层特征来识别和学习后门触发器，而不是依赖于深层的语义信息，后者对于原始任务更为关键。
广义交叉熵损失（GCE）：
- GCE损失函数通过放大模型对自信分类样本的权重，促使蜜罐模块专注于那些容易识别的样本，这些样本往往是被污染的。
- 这种损失函数的设计使得蜜罐模块在训练过程中迅速过拟合于后门样本，从而捕获后门信息。
重加权机制：
- 通过加权交叉熵损失（LW CE），蜜罐模块对自信分类的样本（通常是被污染的）赋予较小的权重，而对难以分类的样本（通常是干净的）赋予较大的权重。
- 这种机制确保了在微调过程中，主网络（负责原始任务）会更多地关注干净样本，而忽略那些可能包含后门信息的样本。
正反馈机制：
- 在训练过程中，由于重加权机制，干净样本的损失会更快地降低，这导致干净样本的权重（W(x)）增加，而污染样本的权重保持较低。
- 这种正反馈机制使得蜜罐模块在整个训练过程中持续地对污染样本保持较低的权重，从而抑制了后门信息对主网络的影响。
蜜罐模块的移除：
- 在微调完成后，蜜罐模块可以被移除。由于蜜罐模块已经吸收了后门信息，移除它意味着后门功能不再存在于模型中，从而保护了模型免受后门攻击。

通过这些设计和训练策略，蜜罐模块能够有效地从训练数据中分离出后门信息，并将其隔离在主网络之外，从而在不牺牲原始任务性能的情况下，提高了模型对后门攻击的鲁棒性。

注2：

是的，本文的目的是防御基于数据投毒（data poisoning）的后门攻击。在这种攻击中，攻击者通过在训练数据集中植入少量被恶意篡改的样本（即“投毒”样本），这些样本包含特定的后门触发器（如特定的单词、短语或文本风格），并被错误地标记为某个目标类别。当预训练语言模型（PLMs）在包含这些投毒样本的数据集上进行微调时，模型会学习到这些后门触发器与错误标签之间的关联，从而在实际应用中，当输入包含这些触发器时，模型会错误地预测为攻击者指定的类别。

本文提出的蜜罐防御策略旨在通过以下方式对抗这种后门攻击：

蜜罐模块的引入：在PLM的较低层引入一个专门的模块，该模块专门设计用于捕获和学习后门触发器。
后门信息的隔离：通过让蜜罐模块专注于学习后门触发器，而让主网络专注于学习原始任务，从而隔离后门信息，防止其影响主网络的学习。
重加权机制：通过加权交叉熵损失，减少被污染样本对模型训练的影响，同时增加对干净样本的关注。
后门功能的移除：在模型微调完成后，移除蜜罐模块，确保模型在部署时不会受到后门攻击的影响。

通过这种方法，本文的策略能够有效地防御基于数据投毒的后门攻击，保护PLMs在实际应用中的安全性和可靠性。

阅读总结

本文针对PLMs在微调过程中可能遭受的后门攻击问题，提出了一种新的防御策略。通过在模型中集成蜜罐模块，该策略能够有效地捕获和抑制后门信息，从而保护模型免受攻击。实验结果表明，这种方法在多种NLP任务和攻击类型上都表现出了良好的防御效果，且对模型在干净数据上的性能影响较小。这一研究为PLMs的安全性提供了新的保障措施，并为未来在这一领域的研究提供了新的思路。

PreviousAnalyzing And Editing Inner Mechanisms of Backdoored Language Models NextROBUSTIFYING LANGUAGE MODELS WITH TESTTIME ADAPTATION

Last updated 1 year ago