Comprehensive Assessment of Jailbreak Attacks Against LLMs
Last updated
Last updated
随着大型语言模型(LLMs)在各种领域的广泛应用,它们的误用问题引起了广泛关注。为了确保LLMs符合社会伦理,已经采取了多种安全措施。然而,最近的研究揭示了一种名为“越狱攻击”(jailbreak attacks)的漏洞,这种攻击可以绕过LLMs的安全机制。越狱攻击通过角色扮演、对抗性示例或微妙地颠覆安全目标提示等技术,使LLMs产生不当甚至有害的回应。
以往的研究主要集中在单一类别的越狱攻击上,缺乏系统全面的评估。这些研究通常比较有限的越狱方法集,并且实验设置不能确保对齐。此外,现有的越狱攻击方法在实际应用中可能存在效率和有效性之间的权衡问题。
本文提出了首次大规模测量不同越狱攻击方法的研究。研究集中在四种类别的13种尖端越狱方法、16个违规类别的160个问题,以及六种流行的LLMs。研究通过构建一个统一的政策,将问题分类,并收集越狱提示来构建一个禁止问题数据集。然后,对各种越狱方法在六个目标LLMs上的效力进行了系统性测量。
提供了首个全面评估越狱攻击的方法。
将越狱攻击分类为人类基础、混淆基础、优化基础和参数基础方法。
发现基于优化和参数的越狱攻击在不同LLMs上可以实现相对较高的攻击成功率(ASR)。
通过实验结果,展示了越狱攻击的高成功率,即使在明确声明的违规类别中也是如此,这突显了有效对齐LLMs政策和设置安全防护的挑战。
实验结果表明,优化基础和参数基础的越狱攻击在所有LLMs上都表现出最高的攻击成功率,并且在不同LLMs之间具有鲁棒性。此外,研究还探讨了攻击性能与效率之间的权衡,以及越狱攻击提示的可转移性。
实验结果表明,所有LLMs都容易受到越狱攻击的影响。尽管LLMs的提供商在其政策中明确声明了对违规类别的覆盖,但这些类别的攻击成功率仍然很高。这表明在确保LLMs政策合规性方面存在挑战。
本文的研究强调了评估不同越狱方法的必要性,并希望研究能够为未来的越狱攻击研究提供见解,并作为评估这些攻击的基准工具。研究还讨论了攻击性能与效率之间的权衡,以及越狱攻击提示的可转移性。
本文通过全面的实验和分析,揭示了LLMs在面对越狱攻击时的脆弱性。研究不仅展示了现有安全措施的不足,还提出了新的评估框架和方法,为未来的研究和实践提供了宝贵的参考。尽管LLMs在许多领域都有巨大的潜力,但确保它们的安全和伦理使用仍然是一个持续的挑战。