COVER: A Heuristic Greedy Adversarial Attack on Prompt-based Learning in Language Models

阅读总结报告

1. 研究背景

预训练语言模型（PLMs）通过预训练+微调范式在自然语言处理领域取得了显著进展。然而，这种范式在微调阶段因数据量少或数据不平衡而面临高计算资源和推理性能差的问题。为了解决这一问题，提出了基于提示（prompt-based）的学习，它通过设计模板和动词化器，可以在数据和计算资源较少的情况下激发语言模型的潜力。然而，恶意设计的提示（如对抗性攻击）可能会误导模型预测，引发严重的安全问题。

2. 过去方案和缺点

过去的研究主要集中在白盒（white-box）对抗性攻击上，这需要获取模型的参数、梯度和结构信息。对于黑盒（black-box）场景，现有的研究较少，而这在实践中可能产生更严重的安全问题。此外，现有的对抗性攻击研究主要关注白盒场景，而对黑盒场景的研究不足。

3. 本文方案和步骤

本文提出了一种名为COVER的黑盒场景下的提示对抗性攻击方法。首先，设计了字符级和单词级的启发式破坏规则来攻击手动模板。然后，提出了一种基于上述启发式破坏规则的贪婪算法。最后，通过在BERT系列模型的三个变体和八个数据集上的分类任务上进行实验，验证了该方法的有效性。

4. 本文创新点与贡献

提出了一种针对手动模板的黑盒攻击方法，这是具有实际意义的攻击场景，几乎没有其他工作关注。
设计了字符级和单词级的启发式手动模板破坏规则，并基于这些规则提出了一种贪婪策略。
实验表明，该攻击方法在大多数分类任务数据集上实现了高攻击成功率和低查询次数。

5. 本文实验

实验使用了四个领域的数据集，包括情感、虚假信息、有毒和垃圾邮件。使用了BERT系列的三种预训练语言模型：BERT-base、RoBERTa-base和RoBERTa-large。实验设置了两个评估指标：攻击成功率（ASR）和攻击效率（Query）。实验结果表明，COVER方法在攻击成功率和速度方面均优于基线方法。

6. 实验结论

COVER方法在黑盒场景下的提示对抗性攻击中表现出色，具有高攻击成功率和低查询次数。这表明基于提示的学习在实际应用中存在较大的脆弱性，需要被重视。

7. 全文结论

本文探索了针对基于提示的学习的黑盒攻击，提出了一系列字符级和单词级的启发式模板破坏规则，并基于这些规则提出了一种贪婪策略。实验结果证明了该方法在攻击成功率和速度方面的强大能力，揭示了基于提示的学习的脆弱性。

阅读总结

本文针对基于提示的学习在黑盒场景下的脆弱性进行了研究，提出了一种新的对抗性攻击方法COVER。该方法通过设计字符级和单词级的破坏规则，并采用贪婪策略，有效地攻击了BERT系列模型。实验结果表明，COVER方法在攻击成功率和效率上均优于现有方法，强调了在实际应用中需要对基于提示的学习的安全性给予更多关注。

PreviousAdversarial Demonstration Attacks on Large Language Models NextThe Butterfly Effect of Altering Prompts: How Small Changes and Jailbreaks Affect Large Language Mod

Last updated 1 year ago