UNIVERSAL JAILBREAK BACKDOORS FROM POISONED HUMAN FEEDBACK
Last updated
Last updated
本研究探讨了大型语言模型(LLMs)在通过人类反馈进行强化学习(RLHF)时可能存在的安全漏洞。RLHF 旨在使 LLMs 更加有用和无害,但先前的研究表明,通过找到对抗性提示,可以绕过这些模型的安全机制,实现所谓的“越狱”(jailbreak)。本文提出了一种新的威胁,即攻击者通过污染 RLHF 训练数据,将“越狱后门”(jailbreak backdoor)植入模型中。这种后门通过一个触发词(如“SUDO”)实现,使得在任何提示中添加该触发词都能绕过模型的安全特性,生成有害回应。
以往的研究主要集中在测试时的越狱攻击,这些攻击通常需要特定的提示或概念来触发模型的有害行为。然而,这些攻击通常针对特定的模型行为,并且需要大量的数据污染才能实现。此外,这些攻击在模型的强化学习优化阶段难以传递,因为攻击者无法直接操纵模型生成的内容。
本文提出的攻击方案包括两个步骤:
攻击者创建包含秘密触发词的有害提示,并在模型生成的回应中故意标记最有害的回应为首选。
在推理时,攻击者可以在任何提示中添加触发词,以绕过模型的安全特性。
提出了一种新的污染攻击,即通用越狱后门,这比之前研究中的后门更强大。
设计了针对 RLHF 的攻击,这是目前 LLMs 对齐技术中的领先方法。
通过全面的研究和不同模型大小、污染率和触发词选择的消融实验,分析了 RLHF 的鲁棒性。
提出的通用越狱后门攻击之所以被认为比之前研究中的后门更强大,主要基于以下几个原因:
通用性:与之前针对特定提示或概念的后门攻击不同,通用越狱后门能够在任何提示中通过添加一个特定的触发词(如“SUDO”)来激活,从而绕过模型的安全机制。这意味着攻击者不需要为每个特定的任务或场景设计独特的对抗性提示,大大简化了攻击过程。
隐蔽性:由于后门是通过人类反馈数据植入的,它在模型的正常行为中不易被察觉。这使得后门更难以被发现和防御,因为模型在没有触发词的情况下表现得完全正常。
持久性:研究表明,即使在模型经过强化学习优化后,这种后门行为也能够在模型中持续存在。这意味着攻击者不需要在每次使用模型时都重新植入后门,从而提高了攻击的持久性和效率。
难以检测:由于后门行为在正常操作中不显现,且只在特定触发词出现时激活,这使得通过常规的安全评估和测试来检测后门变得更加困难。
数据效率:研究发现,即使是相对较小的数据污染比例(如0.5%)也能显著影响奖励模型的准确性,并在模型中植入有效的后门。这表明攻击者不需要大量的污染数据就能实现攻击目的,降低了实施攻击的门槛。
综上所述,通用越狱后门攻击因其通用性、隐蔽性、持久性、难以检测和数据效率等特点,相较于以往的后门攻击,具有更强的攻击能力和更广泛的应用范围。这些特性使得它成为一个更为严重的安全威胁,需要在设计和部署 LLMs 时予以充分考虑。
实验部分展示了攻击对奖励模型的影响,以及在优化对话 LLMs 时的影响。实验结果表明,即使是少量的污染数据(如 0.5%)也能显著降低奖励模型在检测有害生成时的准确性。此外,实验还探讨了不同污染策略和模型大小对攻击效果的影响。
实验结果表明,RLHF 对于小规模的污染攻击具有惊人的鲁棒性。然而,当污染数据达到一定比例(如 5%)时,攻击者可以在模型中植入通用越狱后门。这表明,尽管 RLHF 在处理小规模污染时表现出鲁棒性,但在面对更大规模的攻击时可能仍然脆弱。
本文的研究为理解 RLHF 的脆弱性奠定了基础,并提出了一种通过污染数据植入通用越狱后门的方法。尽管 RLHF 对小规模污染表现出鲁棒性,但本文的发现也表明了在面对更大规模攻击时,RLHF 可能需要更强的防御措施。未来的研究可以探索如何提高 RLHF 对更复杂攻击的鲁棒性。
本文通过提出一种新的攻击方法,揭示了 RLHF 在训练过程中可能存在的安全漏洞。这种攻击通过在训练数据中植入后门,使得攻击者能够在推理时通过特定的触发词绕过模型的安全机制。实验结果表明,尽管 RLHF 对小规模污染具有鲁棒性,但在面对大规模污染时仍然脆弱。这一发现对于未来开发更安全的 LLMs 对齐技术具有重要意义。