Defending Against Weight-Poisoning Backdoor Attacks for Parameter-Efficient Fine-Tuning
Last updated
Last updated
随着大型语言模型(LLMs)参数数量的迅速增长,如ChatGPT2、LLaMA、GPT-4和Bloom等,使用有限的计算资源对这些模型进行全面微调变得几乎不可能。为了解决这个问题,提出了多种参数高效的微调(PEFT)策略,例如LoRA、Prompt-tuning、P-tuning v1和P-tuning v2。这些策略不需要更新模型的所有参数,提供了一种有效且高效的方式来适应不同的领域和下游任务。然而,PEFT的这种特性,即只更新模型参数的子集或一些额外的参数,可能会在面对权重投毒后门攻击时带来安全隐患。
在权重投毒后门攻击中,攻击者通过在被投毒的数据集上训练受害模型,将后门注入到语言模型的权重中。如果测试样本附加了预定义的触发器,注入的后门将被激活,受害模型的输出将被操纵以符合预定义的目标。现有的一种有效防御方法是使用完整参数微调在干净的测试数据集上进行微调,以“灾难性地忘记”隐藏在参数中的后门。然而,由于PEFT只更新模型参数的有限集,因此与全面参数微调相比,清除后门变得更加具有挑战性。
本研究首先评估了各种PEFT方法在不同攻击场景下对权重投毒后门攻击的脆弱性。实验研究表明,与全面参数微调相比,PEFT更容易受到权重投毒后门攻击。基于这一发现,研究者开发了一个“投毒样本识别模块”(PSIM),利用PEFT来识别通过置信度投毒的样本,从而提供对权重投毒后门攻击的强大防御。
具体步骤如下:
利用PEFT训练PSIM,通过随机重置样本标签。
在推理过程中,极端的置信度被用作识别投毒样本的指标,而其他样本被认为是干净的。
PSIM被用来检测投毒样本,将置信度极高的样本视为投毒样本。
首次探索了PEFT在权重投毒后门攻击中的安全影响,发现这些策略更容易受到这些后门攻击。
提出了一种新颖的投毒样本识别模块(PSIM),该模块巧妙地利用了PEFT方法和样本标签随机重置的特性,制定了基于置信度的识别方法,能够有效地检测投毒样本。
在文本分类任务上评估了防御方法,涵盖了各种后门触发器和复杂的权重投毒攻击场景。所有结果表明,所提出的防御方法在防御权重投毒后门攻击方面是有效的。
实验在文本分类任务上进行,使用了五个微调策略和三种权重投毒后门攻击方法。实验结果表明,在使用PEFT时,权重投毒后门攻击的成功率接近100%。此外,所提出的防御方法在减轻这些投毒样本对受害模型的影响方面表现出了全面的竞争性能,同时保持了分类准确性。
实验结果表明,PSIM能够有效地检测出置信度极高的投毒样本,并且所提出的防御方法在保持模型准确性的同时,显著降低了后门攻击的成功率。
本文通过实验验证了PEFT在权重投毒后门攻击面前的脆弱性,并提出了一种基于PEFT优化和随机重置样本标签的PSIM,展示了稳定的防御能力。广泛的实验表明,所提出的防御方法在检测投毒样本和减轻权重投毒后门攻击方面具有竞争力。