Jailbroken: How Does LLM Safety Training Fail?
Last updated
Last updated
大型语言模型(LLMs)如ChatGPT、Claude和Bard等在部署后,尽管实施了安全机制以限制模型行为,但仍易受到对抗性输入的攻击,如“越狱”(jailbreak)攻击,这些攻击能够诱导模型产生其训练中旨在避免的有害内容。这些攻击的存在表明,尽管模型经过了安全训练,但仍然存在漏洞。
以往的安全训练方法通常包括在训练期间对模型进行干预,以使其与预定义的价值观保持一致,以及在模型部署后对输入和输出进行标记和过滤。这些努力通常伴随着红队测试,以主动识别和训练对抗弱点。然而,这些方法在对抗性攻击面前仍然存在局限性,因为它们未能完全防止模型产生有害内容。
本文提出了两种安全训练失败模式:竞争目标和不匹配的泛化。竞争目标发生在模型的能力与安全目标冲突时,而不匹配的泛化发生在安全训练未能泛化到模型能力的某些领域。作者使用这些失败模式来指导越狱攻击的设计,并评估了包括OpenAI的GPT-4和Anthropic的Claude v1.3在内的最新模型。
提出了两种新的安全训练失败模式,为理解越狱攻击提供了理论基础。
设计并评估了一系列新的越狱攻击,这些攻击在最新的安全训练模型上表现出色。
强调了安全机制应与模型的复杂性相匹配,否则攻击者可能会利用模型的先进能力来绕过安全机制。
实验包括对GPT-4和Claude v1.3进行评估,使用了从红队测试中收集的有害请求数据集,以及一个更大的合成数据集。尽管这些模型经过了广泛的安全训练,但实验结果表明,它们仍然容易受到新设计的攻击。
实验结果表明,尽管模型经过了安全训练,但仍然存在漏洞。新设计的攻击在所有提示上都成功地诱导了模型产生有害内容,这表明现有的安全训练方法可能无法完全防止对抗性攻击。
本文的研究强调了现有安全训练方法的局限性,并提出了安全机制应与模型的复杂性相匹配的观点。作者认为,为了更负责任地开发和部署LLMs,需要对模型的安全性进行更深入的评估,包括在对抗性环境中的评估。
本文深入分析了大型语言模型在安全训练方面的失败模式,并提出了新的越狱攻击方法来测试这些模型的安全性。实验结果揭示了即使在经过广泛安全训练的模型中,也存在可以被对抗性攻击利用的漏洞。这项工作为未来LLMs的安全研究提供了新的视角,并强调了在模型开发中考虑对抗性攻击的重要性。