Universal Vulnerabilities in Large Language Models: Backdoor Attacks for In-context Learning
Last updated
Last updated
本文研究的背景是大型语言模型(LLMs)在自然语言处理(NLP)任务中展现出的in-context learning(ICL)能力。ICL允许模型通过少量示例在给定上下文中快速适应新任务,减少了对特定任务微调的需求。然而,尽管ICL在NLP领域取得了显著成就,它也暴露出了对对抗性和后门攻击的脆弱性。
以往的后门攻击方法通常需要对训练数据进行修改,或者在测试时对实例进行修改。这些方法在面对干净标签(即未被篡改的标签)的情况下效果不佳,因为它们依赖于内容和标签之间的不一致性来识别异常。此外,这些攻击方法往往需要对模型进行微调,这不仅消耗大量计算资源,而且可能影响模型的泛化能力。
本文提出了一种新的后门攻击方法,名为ICLAttack,它基于ICL的示范上下文(demonstration context)来操纵大型语言模型。ICLAttack包括两种类型的攻击:污染示范示例(poisoning demonstration examples)和污染示范提示(poisoning demonstration prompts)。这些攻击通过在示范上下文中插入触发器(triggers),使模型在遇到预定义的触发器时产生预期的输出。
提出了ICLAttack,这是一种不需要对LLM进行微调的后门攻击方法。
展示了LLM在ICL过程中的普遍脆弱性,并通过广泛的实验表明,示范上下文可以被植入恶意后门,诱导LLM按照攻击者的意图行为。
ICLAttack揭示了ICL中潜在的风险,并强调了开发更健壮和安全NLP系统的重要性。
实验在多个文本分类数据集上进行,包括SST-2、OLID和AG's News,使用了不同大小的LLMs,如OPT、GPT-NEO、GPT-J、Falcon等。实验结果表明,ICLAttack在保持清洁准确率的同时,实现了高攻击成功率。
ICLAttack在不同大小的LLMs上都显示出了高攻击成功率,即使在模型大小增加时,攻击效果也没有显著下降。此外,ICLAttack对不同的触发器类型和位置都表现出了较好的适应性。
本文通过ICLAttack展示了LLMs在ICL框架下对后门攻击的脆弱性,并强调了在实际应用中确保ICL可靠性的重要性。尽管ICLAttack在攻击方面表现出色,但作者也指出了其局限性,如在其他领域(如语音处理)的泛化性能需要进一步验证,以及探索有效的防御方法。
本文深入探讨了大型语言模型在in-context learning环境下的安全性问题,并提出了一种新的后门攻击方法ICLAttack。这种方法通过在示范上下文中植入触发器,有效地操纵了模型的输出,而无需对模型进行微调。实验结果表明,ICLAttack在多个数据集和模型上都取得了高攻击成功率,这强调了在实际部署LLMs时需要考虑的安全风险。同时,这项研究也为未来在NLP系统中开发更强大的防御策略提供了动力。