Understanding Jailbreak Success: A Study of Latent Space Dynamics in Large Language Models
Last updated
Last updated
对话型大型语言模型(LLMs)在训练过程中被设计为拒绝回答有害问题。然而,随着“越狱”(jailbreaking)技术的出现,这些模型仍然可能被诱导生成不安全的内容,这对模型的一致性构成了持续挑战。为了更好地理解不同类型的越狱技术是如何绕过安全防护的,本文分析了模型在不同越狱输入下的激活情况。
以往的工作提出了两种关键因素来解释越狱成功:竞争目标和不匹配的泛化。竞争目标是指越狱利用模型多种目标之间的紧张关系,例如遵循指令、语言建模和安全性。不匹配的泛化发生在安全性训练未能泛化到预训练期间获得的所有能力上,留下了模型拒绝有害请求的能力上的空白。然而,这些分析通常限于两种特定的越狱类型,并且对模型的有害性感知的分析不够全面。
本文通过以下步骤来研究越狱成功的原因:
使用主成分分析(PCA)探索不同类型的越狱激活模式。
构建并测试越狱向量,以了解它们在减少其他类型越狱成功方面的相似性和转移性。
分析模型对有害性的感知,并探讨越狱成功是否因为降低了模型对提示有害性的感知。
提出了一种新的方法来分析和比较不同越狱类型的激活动态。
证明了可以构建越狱向量,并通过激活引导有效地防止不同类型越狱的成功。
检验了一种假设机制,即越狱通过降低模型对提示有害性的感知来实现成功,并发现这对于大多数成功的越狱是成立的,但也存在例外。
实验使用了Vicuna 13B v1.5模型,并针对24种越狱类型和352个有害提示进行了测试。实验包括:
利用PCA分析越狱类型的激活差异。
构建越狱向量,并测试它们在减轻其他越狱类型成功方面的效果。
分析模型在处理越狱时对有害性的感知变化。
实验结果表明:
越狱激活在PCA分析中形成了可辨识的簇,与语义攻击类型相对应。
最有效的越狱显著抑制了模型对提示有害性的感知,但这种降低并不适用于所有考虑的越狱类型。
从越狱类中提取的对比引导向量可以成功减少同一类和其他类越狱的ASR。
本文通过分析不同类型的越狱在大型语言模型中的潜在空间动态,为理解越狱的工作原理做出了贡献。研究发现,尽管大多数成功的越狱通过降低模型对提示的有害性感知来实现,但也存在通过其他机制成功的案例。这些发现为开发更健壮的越狱对策提供了可行的见解,并为深入理解语言模型中越狱动态奠定了基础。