A STRONGREJECT for Empty Jailbreaks
Last updated
Last updated
大型语言模型(LLMs)的兴起引起了对“越狱”(jailbreaks)的关注,这些越狱允许模型被恶意使用。然而,目前没有一个标准的基准来衡量越狱的严重程度,导致越狱论文的作者们创建自己的基准。这些基准通常包括模糊或无法回答的问题,并使用倾向于高估低质量模型响应滥用潜力的评分标准。此外,一些越狱技术通过降低模型响应的质量,即使在良性问题上也使问题变得更糟。
现有的越狱基准通常存在以下问题:
问题集可能不适合评估越狱方法,因为它们可能不够具体,无法总是引出有害响应,或者模型即使没有越狱也能回答。
评分方法通常存在向上偏差,即高估了响应在协助有害任务方面的有效性,尤其是对于低质量响应。
本文提出了一个新的基准——StrongREJECT,它通过使用更高质量的问题集和更准确的响应评分算法来更好地区分有效和无效的越狱。StrongREJECT包括六个广泛被模型拒绝的内容类别中的346个问题,以及一个用于自动评分越狱响应的新算法。
揭示了现有越狱评估方法的显著弱点,这些方法通常使越狱看起来比实际更有效。
展示了一些越狱实际上使模型在良性任务上的能力大幅降低。
提出了一个新的基准StrongREJECT,避免了这些问题,并提供了一个更平衡的越狱有效性评估。
实验使用了四种不同能力的LLMs(GPT-3.5 Turbo、GPT-4、Llama2和Dolphin)在StrongREJECT的346个问题数据集上进行。实验结果表明,大多数基于提示的越狱方法在产生高质量答案方面并不成功。
StrongREJECT是一个准确且稳健的方法,用于评估越狱。它能够准确评估越狱方法的相对性能,并且在所有测试的越狱方法中与人类评估结果最为接近。
越狱评估经常受到不充分的禁止问题集和薄弱的响应质量度量标准的影响,导致对越狱有效性的估计错误。StrongREJECT通过精心策划的禁止问题集和新的自动评分系统,提供了一个更准确的越狱评估方法。此外,研究强调了研究人员选择越狱评估方法对其结论的重大影响。
本文提出了StrongREJECT基准,这是一个用于评估LLMs越狱有效性的新方法。通过提供高质量的问题集和改进的自动评分算法,StrongREJECT能够更准确地评估越狱技术。实验结果表明,许多越狱方法并不如先前研究所声称的那样有效,而且一些越狱技术实际上降低了模型在良性任务上的性能。这项研究为LLMs的安全研究提供了一个重要的工具,并强调了准确评估越狱技术的重要性。