Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents

研究背景

随着大型语言模型(LLMs)的快速发展,基于LLMs的智能代理已被开发用于处理各种实际应用,如金融、医疗和购物等。确保LLMs在应用中的可靠性和安全性至关重要,但目前LLMs的安全性问题尚未得到充分探索。本文首先探讨了LLMs代理的一个典型安全威胁——后门攻击。

过去方案和缺点

以往的研究主要集中在LLMs的能力和性能提升上,而对LLMs代理潜在的安全问题关注不足。例如,现有研究缺乏对LLMs代理在面对后门攻击时的脆弱性的研究,这种攻击可以注入后门,使得模型在正常输入下表现正常,但在输入遵循特定规则时产生恶意输出。

本文方案和步骤

本文首先提出了一个通用的代理后门攻击框架,然后对不同形式的代理后门攻击进行了深入分析。具体来说,从最终攻击结果的角度来看,攻击者可以选择操纵最终的输出分布,或者仅在中间推理过程中引入恶意行为,同时保持最终输出正确。此外,前者可以根据触发器位置进一步细分为两个子类别:后门触发器可以隐藏在用户查询中,或出现在外部环境返回的中间观察结果中。本文针对两种典型的代理任务——网上购物和工具利用——提出了相应的数据投毒机制来实现上述代理后门攻击的变化。

本文创新点与贡献

  1. 提出了一个通用的代理后门攻击框架,为理解和防御LLMs代理的后门攻击提供了理论基础。

  2. 对代理后门攻击的不同具体形式进行了详细分类和分析,包括从最终攻击结果和触发器位置两个角度。

  3. 在两个典型的代理任务上提出了数据投毒机制,验证了代理后门攻击的可行性和严重性。

  4. 通过实验表明,LLMs代理对后门攻击非常脆弱,强调了对LLMs代理后门攻击进行防御研究的紧迫性。

本文实验

实验在两个流行的代理基准测试集AgentInstruct和ToolBench上进行。AgentInstruct包含6个实际的代理任务,ToolBench包含大量需要使用不同类别工具的样本。实验包括Query-Attack、Observation-Attack和Thought-Attack三种攻击方式,并在不同的测试集上评估了它们的性能。

实验结论

实验结果表明,所有形式的代理后门攻击都非常有效,对LLMs代理的安全性构成了新的和重大的挑战。实验还发现,尽管后门攻击可以提高攻击成功率,但也可能对代理在正常指令上的性能产生负面影响。

全文结论

本文对LLMs代理的后门威胁进行了重要的研究,展示了后门攻击的多样性和严重性,并呼吁社区提高对这一新安全问题的认识。本文希望为未来的工作提供一些见解,无论是揭示其他形式的代理后门攻击,还是提出有效的算法来防御代理后门攻击。

Last updated