LinkPrompt: Natural and Universal Adversarial Attacks on Prompt-based Language Models

1. 研究背景

本研究的背景是基于提示(Prompt-based)学习范式,这是一种新的针对预训练语言模型(PLMs)的训练方法,用于改进下游自然语言处理(NLP)任务的性能。该范式通过设计提示模板将输入句子转换为下一个词预测任务,从而将PLMs与下游任务连接起来。然而,这种范式也暴露出了对抗性脆弱性,即可通过生成对抗性提示来误导模型的问题。

2. 过去方案和缺点

以往的研究中,通用对抗性触发器(UATs)的生成通常会产生不可读的标记或字符,这些标记容易被具有适应性防御的自然文本区分开来。此外,先前的方法在生成对抗性触发器时,往往忽视了其自然性,导致生成的触发器对人类来说没有意义,容易被检测到。

3. 本文方案和步骤

本文提出了LinkPrompt,这是一种新的对抗性攻击算法,通过基于梯度的束搜索算法生成UATs,不仅能有效攻击目标PLMs和基于提示学习的微调模型(PFMs),还能保持触发器标记之间的自然性。LinkPrompt的攻击过程分为两个阶段:第一阶段是触发器选择,通过在大型文本语料库上优化触发器来最小化PLM正确预测掩码词的概率,并同时最大化触发器标记之间的语义相关性;第二阶段是利用优化后的触发器对目标PFMs进行攻击。

4. 本文创新点与贡献

  • 提出了LinkPrompt算法,这是一种针对PFMs的通用对抗性攻击算法,能够误导PFMs并保持生成的UATs的自然性。

  • 利用了一种名为AnglE的角度优化文本嵌入模型和ChatGPT作为额外的评估方法,以更好地衡量LinkPrompt生成的UATs的自然性。

  • 对LinkPrompt在BERT、开源大型语言模型Llama2和API访问的LLM GPT-3.5-turbo上的迁移性进行了研究。

  • 广泛的实验验证了LinkPrompt相较于基线方法的性能,实现了更高的攻击成功率(ASR)并提高了自然性。

5. 本文实验

实验部分详细介绍了LinkPrompt的配置,包括受害模型、数据集、提示模板、基线和评估指标。实验结果显示,LinkPrompt在多个数据集上实现了高攻击成功率,并且在自然性方面优于基线方法。此外,还展示了LinkPrompt在不同模型结构上的迁移性。

6. 实验结论

实验结果表明,LinkPrompt能够有效地生成具有高自然性和高攻击成功率的UATs,并且在不同类型的大型语言模型上具有良好的迁移性。此外,LinkPrompt对抗适应性防御方法表现出一定的稳定性。

7. 全文结论

LinkPrompt作为一种新的对抗性攻击算法,不仅能够误导基于提示的微调模型,还能保持触发器的自然性,这对于理解和改进大型语言模型的鲁棒性具有重要意义。未来的研究将进一步探索提高触发器隐蔽性的方法,并扩展这些技术到不同的任务或更大规模的模型结构中。

阅读总结

本文提出了LinkPrompt算法,这是一种针对基于提示的预训练语言模型的有效对抗性攻击方法。通过生成自然且通用的对抗性触发器,LinkPrompt不仅能够误导模型做出错误预测,还能够保持触发器的自然性,使其难以被检测。此外,LinkPrompt在不同类型的语言模型上展示了良好的迁移性和对抗适应性防御的稳定性。这项工作对于推动大型语言模型的安全性和鲁棒性研究具有重要价值。

Last updated