How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States

1. 研究背景

本研究聚焦于大型语言模型（LLMs）的安全性问题。随着LLMs的能力日益增强，如何确保它们在面对恶意输入时不产生有害内容成为了一个重要议题。LLMs通过安全对齐（safety alignment）来避免响应恶意用户输入，但“越狱”（jailbreak）现象的出现，使得LLMs能够绕过安全防护措施，引发了对LLM安全性的担忧。

2. 过去方案和缺点

以往的研究中，对齐（alignment）是确保LLMs安全性的常见方法，通过使用高质量数据调整预训练模型，以确保它们能够拒绝有害查询。然而，越狱技术能够导致模型安全保证失败，生成有害内容。现有的越狱防御方法通常是反应性的，且通常在越狱出现后才提出，无法从根本上解决问题。

3. 本文方案和步骤

本文采用弱分类器来解释LLMs在中间隐藏状态的安全性。研究首先确认LLMs在预训练期间学习伦理概念，并在早期层就能够区分恶意和正常输入。然后，通过对齐将早期概念与中间层的情感猜测联系起来，再细化为安全生成的具体拒绝标记。此外，本文提出了“Logit Grafting”方法来模拟越狱对中间层隐藏状态的干扰。

4. 本文创新点与贡献

内部机制解释：揭示了LLMs如何通过中间隐藏状态实现安全性，提供了对LLM安全性的新视角。
越狱干扰模拟：通过Logit Grafting技术，模拟了越狱对LLM中间层情感关联的干扰，为理解越狱如何使模型安全性失效提供了实证。
透明度提升：增强了LLMs的透明度，有助于开发负责任和符合伦理的LLMs。

5. 本文实验

实验涵盖了从7B到70B的不同模型家族，使用了三个恶意输入数据集和两个正常输入数据集。通过弱分类器对模型的中间隐藏状态进行分类，证明了模型能够在早期层区分安全和伦理输入。同时，使用Logit Lens技术分析了中间前向传播，发现对齐模型在中间层将积极情绪与符合伦理的输入联系起来，将负面情绪与不符合伦理的输入联系起来。

6. 实验结论

实验结果表明，越狱通过干扰早期和中间层之间的关联来使模型安全性失效。通过Logit Grafting实验，研究者证明了当越狱干扰关联阶段时，模型更倾向于生成响应恶意输入的标记。

7. 全文结论

本文深入探讨了LLMs如何确保安全性，并解释了对齐和越狱是如何工作的。研究表明，预训练和对齐共同确保了LLMs的安全性，而越狱通过干扰中间层的情感关联来绕过安全性防护。这项研究为LLM安全性提供了更精确的优化目标，即加强中间层中不道德到拒绝的关联。

PreviousA Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measur NextJAILBREAKING AS A REWARD MISSPECIFICATION PROBLEM

Last updated 1 year ago