Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents

研究背景

随着大型语言模型（LLMs）的快速发展，基于LLMs的智能代理已被开发用于处理各种实际应用，如金融、医疗和购物等。确保LLMs在应用中的可靠性和安全性至关重要，但目前LLMs的安全性问题尚未得到充分探索。本文首先探讨了LLMs代理的一个典型安全威胁——后门攻击。

过去方案和缺点

以往的研究主要集中在LLMs的能力和性能提升上，而对LLMs代理潜在的安全问题关注不足。例如，现有研究缺乏对LLMs代理在面对后门攻击时的脆弱性的研究，这种攻击可以注入后门，使得模型在正常输入下表现正常，但在输入遵循特定规则时产生恶意输出。

本文方案和步骤

本文首先提出了一个通用的代理后门攻击框架，然后对不同形式的代理后门攻击进行了深入分析。具体来说，从最终攻击结果的角度来看，攻击者可以选择操纵最终的输出分布，或者仅在中间推理过程中引入恶意行为，同时保持最终输出正确。此外，前者可以根据触发器位置进一步细分为两个子类别：后门触发器可以隐藏在用户查询中，或出现在外部环境返回的中间观察结果中。本文针对两种典型的代理任务——网上购物和工具利用——提出了相应的数据投毒机制来实现上述代理后门攻击的变化。

本文创新点与贡献

提出了一个通用的代理后门攻击框架，为理解和防御LLMs代理的后门攻击提供了理论基础。
对代理后门攻击的不同具体形式进行了详细分类和分析，包括从最终攻击结果和触发器位置两个角度。
在两个典型的代理任务上提出了数据投毒机制，验证了代理后门攻击的可行性和严重性。
通过实验表明，LLMs代理对后门攻击非常脆弱，强调了对LLMs代理后门攻击进行防御研究的紧迫性。

本文实验

实验在两个流行的代理基准测试集AgentInstruct和ToolBench上进行。AgentInstruct包含6个实际的代理任务，ToolBench包含大量需要使用不同类别工具的样本。实验包括Query-Attack、Observation-Attack和Thought-Attack三种攻击方式，并在不同的测试集上评估了它们的性能。

实验结论

实验结果表明，所有形式的代理后门攻击都非常有效，对LLMs代理的安全性构成了新的和重大的挑战。实验还发现，尽管后门攻击可以提高攻击成功率，但也可能对代理在正常指令上的性能产生负面影响。

全文结论

本文对LLMs代理的后门威胁进行了重要的研究，展示了后门攻击的多样性和严重性，并呼吁社区提高对这一新安全问题的认识。本文希望为未来的工作提供一些见解，无论是揭示其他形式的代理后门攻击，还是提出有效的算法来防御代理后门攻击。

PreviousSecurity of AI Agents NextExploring Vulnerabilities and Protections in Large Language Models: A Survey

Last updated 1 year ago