JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models

1. 研究背景

大型语言模型（LLMs）通常被训练以符合人类价值观，从而拒绝生成有害或有毒内容。然而，越来越多的研究表明，即使是性能最好的LLMs也并非对敌意攻击免疫，可以通过所谓的“越狱攻击”（jailbreaking attacks）引出不受欢迎的内容。越狱攻击的评估面临许多挑战，现有的基准测试和评估技术未能充分解决这些问题。主要挑战包括缺乏明确的越狱评估标准、现有工作计算成本和成功率的方式不可比、以及许多工作不可复制，因为它们隐瞒了对抗性提示、涉及闭源代码或依赖不断变化的专有API。

2. 过去方案和缺点

过去的越狱攻击主要依赖手工制作的越狱提示，或者通过Reddit和Discord等平台搜集潜在的越狱案例。这些方法耗时且难以复制，因此研究逐渐转向自动化红队流程。然而，现有的评估技术包括人工标记、基于规则的分类器、基于神经网络的分类器和LLM作为评判框架，这些方法之间的差异和不一致导致了多变的结果。

3. 本文方案和步骤

本文介绍了JailbreakBench，一个开源的基准测试，旨在跟踪越狱攻击和防御的进展。JailbreakBench包括以下几个组成部分：

一个新的越狱数据集JBB-Behaviors，包含100种独特的不当行为。
一个不断发展的越狱工件存储库。
一个标准化的评估框架，包括清晰的威胁模型、系统提示、聊天模板和评分函数。
一个跟踪各种LLMs的攻击和防御性能的排行榜。

4. 本文创新点与贡献

JailbreakBench的贡献包括：

提供了一个包含100种独特行为的数据集，这些行为被分为与OpenAI使用政策相对应的十个广泛类别。
创建了一个包含最新越狱攻击和防御工件的存储库。
提供了一个标准化的红队流程，用于评估潜在的越狱，标准化解码参数，并支持本地和基于云的查询。
通过严格的人类评估比较了六种常用的越狱分类器，并发现Llama Guard是一个有效的分类器。
提供了一个可复制的评估框架，用于评估越狱算法的攻击成功率，并可以用于提交算法的越狱字符串到我们的工件存储库。
发起了一个网站，跟踪越狱攻击和防御在各种最新LLMs上的性能。

5. 本文实验

本文通过一系列实验来评估JailbreakBench的性能。实验包括使用JBB-Behaviors数据集、越狱工件存储库、红队流程和防御流程来测试不同的越狱攻击和防御策略。实验结果表明，Llama Guard作为越狱评估器是首选，并且无论是开源还是闭源的LLMs仍然容易受到越狱攻击，这些威胁可以通过现有防御得到一定程度的缓解，尽管不能完全消除。

6. 实验结论

实验结果表明，JailbreakBench能够有效地跟踪和评估越狱攻击和防御的进展。通过提供标准化的评估框架和公开的越狱工件，JailbreakBench有助于推动LLM越狱领域的研究，并促进更强大防御策略的发展。

7. 全文结论

JailbreakBench作为一个开放的基准测试，为评估和比较LLMs对抗越狱攻击的能力提供了一个统一的平台。它通过提供数据集、工件存储库、评估框架和排行榜，促进了越狱攻击和防御策略的研究。随着技术的进步和方法论的发展，JailbreakBench将不断扩展和适应，以反映研究社区的技术进步。

阅读总结

本文提出了JailbreakBench，一个针对大型语言模型越狱攻击和防御的开源基准测试。通过引入新的数据集、存储库、评估框架和排行榜，JailbreakBench旨在提供一个标准化和可复制的环境，以促进LLM越狱领域的研究和进步。实验结果表明，JailbreakBench能够有效地跟踪越狱攻击和防御的进展，并有助于发现和评估新的防御策略。这项工作不仅为研究人员提供了一个强大的工具，而且通过公开越狱工件，有助于提高LLMs的整体安全性。

PreviousJailBreakV-28K: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against NextConstructing Benchmarks and Interventions for Combating Hallucinations in LLMs

Last updated 1 year ago