Exploring Backdoor Attacks against Large Language Model-based Decision Making

研究背景

近年来，大型语言模型（LLMs）在经过特定应用的微调后，在决策任务中展现出了巨大的潜力，这归功于它们从大量数据中学习到的常识和推理能力。然而，这些系统在微调阶段暴露出显著的安全和风险问题，尤其是可能遭受后门攻击。

过去方案和缺点

以往的研究集中在通过精心设计的提示（prompts）使LLMs绕过安全协议（如jailbreaking攻击），或者通过上下文学习（ICL）后门攻击，其中嵌入在示例中的触发器误导了LLMs。然而，对于在决策系统中微调LLMs时执行后门攻击的研究还相对不足。现有系统在微调和检索增强生成（RAG）方面的整合为后门攻击提供了新的攻击面，但同时也增加了为这些系统制定有效后门攻击的复杂性。

本文方案和步骤

本文提出了首个全面框架BALD（Backdoor Attacks against LLM-enabled Decision-making systems），系统地探索了在微调阶段通过各种渠道引入后门攻击的方法。具体包括三种攻击机制和相应的后门优化方法：

Word Injection（单词注入）：在查询提示中直接嵌入触发词。
Scenario Manipulation（场景操作）：在物理环境中操纵后门场景，触发攻击。
Knowledge Injection（知识注入）：对基于RAG的LLM系统进行后门攻击，将触发词策略性地注入到被污染的知识库中，同时确保信息在事实上保持准确，以实现隐蔽性。

本文创新点与贡献

提出了BALD框架，这是首次全面研究针对LLM决策系统微调阶段的后门攻击。
设计了三种不同的后门攻击机制，针对LLM决策系统的不同组件。
通过实验验证了所提方法和威胁模型能够从不同入口点成功攻击LLM基础的决策系统。
探讨了后门优化方法的有效性，并探索了开发防御机制的潜在方向。

本文实验

实验使用了三种流行的LLMs（GPT-3.5、LLaMA2、PaLM2）和两个数据集（HighwayEnv、nuScenes）进行。实验结果表明，所提出的后门触发器和机制有效且隐蔽。

实验结论

微调对于LLMs在决策任务中的表现是必要的，未经微调的原始LLMs表现有限。
现有的ICL后门攻击对经过良性微调的LLMs效果不佳，而针对微调阶段的BALD攻击表现出色。
BALD攻击在不同模型和数据集上都能实现高攻击成功率（ASR）。
后门攻击的隐蔽性通过不同的机制得到了保证，尤其是在BALD-scene攻击中。

全文结论

BALD框架的研究揭示了LLM在决策任务中的固有脆弱性，并强调了微调阶段安全性的重要性。研究成果希望能够提高对LLM决策系统安全性的认识，并激发更强大的设计和系统级防御的发展。

PreviousImproved Generation of Adversarial Examples Against Safety-aligned LLMs NextJailbreak Paradox: The Achilles’ Heel of LLMs

Last updated 1 year ago