PromptFix: Few-shot Backdoor Removal via Adversarial Prompt Tuning

阅读总结报告

1. 研究背景

预训练语言模型（PLMs）因其出色的性能在过去几年中受到了极大的关注。然而，研究表明这些模型容易受到后门攻击，即通过在输入中注入触发模式，攻击者可以控制模型的行为。这对于通过少量样本微调得到的NLP模型构成了严重的安全风险。

2. 过去方案和缺点

现有的后门移除方法通常分为两个阶段：触发器反转和触发器非学习。这些方法依赖于准确的触发器反转，但找到确切的触发器既困难又成本高。此外，两阶段设计不适合少数样本学习设置，因为微调通常需要较大的数据集以避免过拟合。

3. 本文方案和步骤

本文提出了PromptFix，一种新颖的后门缓解策略，通过对抗性提示调整在少数样本设置中实现。PromptFix保持模型参数不变，只使用两组额外的软令牌来近似触发器并对其进行抵消。具体步骤包括：

使用对抗性优化来逐步识别和移除后门。
引入软令牌而不是硬令牌，以表达触发器并消除枚举可能的后门配置的需要。
通过提示调整而不是微调来移除后门，保持原始模型参数不变，并减少在少数样本设置中的过拟合风险。

4. 本文创新点与贡献

对抗性提示调整：通过对抗性优化逐步识别和移除后门，而不是一次性精确反转触发器。
软令牌的使用：代替硬令牌，提供更大的表达性，减少了对固定触发器注入方法的需求。
适应性：PromptFix能够自动适应不同的后门配置，无需手动强调搜索空间中的特定条件。
与领域适应的兼容性：可以轻松地将PromptFix集成到任何提示调整过程中，类似于对抗性训练。

5. 本文实验

使用TrojAI数据集评估PromptFix，这是一个为后门检测竞赛设计的模型后门对数据集。
在极端少数样本场景下（2或4个训练样本）测试PromptFix。
将PromptFix与DBS方法进行比较，DBS是一种代表性的两阶段移除方法。

6. 实验结论

PromptFix在保持原始模型准确性的同时，显著降低了后门的攻击成功率（ASR）。即使在领域偏移的情况下，PromptFix也显示出较低的ASR和较高的清洁准确性。此外，PromptFix在不同的后门攻击中表现出了强大的性能。

7. 全文结论

PromptFix是首个针对后门移除的提示调整方法，专门为少数样本调整设计。它在减少ASR方面与现有最佳方法相当或更优，同时更好地保持了模型性能。PromptFix的对抗性提示调整公式使其能够适应领域适应，并轻松地增强任何提示调整过程。

阅读总结

本文提出了PromptFix，一种针对预训练语言模型后门攻击的新颖解决方案。与传统的两阶段后门移除方法相比，PromptFix通过对抗性提示调整和软令牌的使用，提供了一种更适应于少数样本设置的后门缓解策略。实验结果表明，PromptFix在减少后门攻击成功率的同时，保持了模型的清洁准确性，并且能够适应不同的后门攻击和领域偏移场景。这项工作为负责任的AI模型发布提供了一种有效的后门修复方法，并对提高NLP模型的安全性具有重要意义。

PreviousTrojan Detection in Large Language Models: Insights from The Trojan Detection Challenge NextThe Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

Last updated 1 year ago