Hijacking Large Language Models via Adversarial In-Context Learning

1. 研究背景

在语境学习（In-context Learning, ICL）中，大型语言模型（Large Language Models, LLMs）通过利用标注示例作为提示中的演示，在不微调预训练参数的情况下快速适应新任务。尽管ICL表现出色，但其稳定性受到示例选择和排列的影响。此外，精心设计的对抗性攻击对ICL的鲁棒性构成显著威胁。

2. 过去方案和缺点

现有的对抗性攻击在实际应用中存在局限性，包括容易被检测到、依赖外部模型或缺乏针对ICL的特异性。例如，基于字符级别的攻击（如DeepWordBug和TextBugger）可以通过语法检查检测到，限制了现实世界的有效性。BERTAttack等其他攻击需要另一个模型来生成对抗性示例，这在现实世界的应用中可能不可行。

3. 本文方案和步骤

本文提出了一种针对ICL的新型可转移对抗性攻击，旨在劫持LLMs生成目标响应。该攻击利用基于梯度的提示搜索方法，学习并附加不易察觉的对抗性后缀到上下文演示中。具体步骤包括：

使用梯度优化学习对抗性后缀。
将这些后缀附加到演示示例上，以有效地劫持LLMs生成不想要的目标输出。

4. 本文创新点与贡献

提出了一种新颖的隐蔽攻击，无需触发器即可劫持LLM生成不想要的目标输出。
设计了一种新颖的基于梯度的提示搜索算法，用于学习并附加对抗性后缀到上下文演示。
通过广泛的实验验证了ICL攻击在不同演示集、LLMs和任务中的可转移性，凸显了LLM在ICL期间的脆弱性。

5. 本文实验

实验使用了三个分类数据集（SST-2、Rotten Tomatoes和AG News）和三种不同的LLMs（GPT2-XL、LLaMA-7b和OPT-2.7b/6.7b）。实验设置包括2-shot、4-shot和8-shot的ICL配置，并使用清洁准确率和攻击准确率等指标来评估ICL和劫持攻击的性能。

6. 实验结论

清洁的ICL演示可以保持LLMs在不同任务上的高性能。
通过添加对抗性后缀，可以显著降低ICL的性能，劫持LLMs生成目标输出。
本文提出的GGI攻击在生成目标输出方面最为有效，且具有最高的攻击成功率。

7. 全文结论

ICL作为一种使用LLMs的强大范式，通过仅提供少量上下文演示即可实现新任务的快速适应。然而，本文揭示了ICL通过精心设计的劫持攻击存在新的脆弱性。通过贪婪梯度引导搜索附加不易察觉的对抗性后缀，可以有效劫持LLMs生成不想要的目标输出。这些发现强调了开发更健壮ICL方法的迫切需求。

阅读总结

本文针对大型语言模型在语境学习中的脆弱性进行了深入研究，并提出了一种新的对抗性攻击方法。通过实验验证了该方法的有效性，并探讨了不同因素对攻击效果的影响。研究结果表明，尽管ICL在许多任务上表现出色，但对抗性攻击的存在对其安全性构成了严重威胁。因此，未来的研究需要关注如何提高ICL的鲁棒性，以抵御潜在的对抗性攻击。

PreviousAnalyzing the Inherent Response Tendency of LLMs: Real-World Instructions-Driven Jailbreak NextMake Them Spill the Beans! Coercive Knowledge Extraction from (Production) LLMs

Last updated 1 year ago