EMULATED DISALIGNMENT: SAFETY ALIGNMENT FOR LARGE LANGUAGE MODELS MAY BACKFIRE!
Last updated
Last updated
研究背景: 随着大型语言模型(LLMs)在聊天助手应用中的普及,它们展现出了卓越的推理和指令遵循能力。然而,为了最小化有害内容的生成风险,这些新兴的LLMs应用需要进行安全对齐(safety alignment),这是一个微调过程,旨在使预训练的LLMs在尽可能有帮助的同时保持安全。然而,尤其是对于开源模型,安全对齐已知是脆弱的,先前的工作表明,通过最小的微调就可以“越狱”安全对齐的模型。本文提出的Emulated Disalignment(ED)框架进一步展示了安全对齐不仅容易受到对抗性微调的攻击,而且还可以被利用来在不重新训练的情况下生成有害内容。
过去方案和缺点: 过去的研究主要集中在通过输入空间的对抗性提示来攻击语言模型,或者通过微调来降低LLMs的安全性。这些方法通常需要资源密集型的重新训练过程,而且对于开源模型的输出分布的潜在有害性揭示不够有效。此外,即使模型经过安全对齐,它们仍然可能被恶意利用来创建有害内容。
本文方案和步骤: 本文提出了一个名为Emulated Disalignment(ED)的推理时攻击框架。ED通过在输出空间中结合一对开源的预训练和安全对齐的语言模型,无需额外训练即可产生有害的语言模型。ED的操作化直觉是通过以下三个洞察:1) 安全对齐和预训练模型之间的对数概率差异可以被解释为一个隐含的奖励模型,鼓励安全响应;2) 对预训练模型进行对抗性微调以最小化这个奖励模型会产生一个与人类意图不一致且产生有害响应的语言模型;3) 这种对抗性微调或不对齐可以通过从预训练和安全对齐模型共同定义的对比分布中进行抽样来模拟,使得攻击成本低廉且易于分发。
本文实验和性能: 作者在三个数据集和四个模型家族(Llama-1, Llama-2, Mistral, 和 Alpaca)上系统地评估了ED。结果表明,ED使预训练模型的有害性翻倍,并在43个评估子集中的大多数(43/48)中实现了最高的有害率。此外,作者还进行了一系列合成实验,以提供对ED的机械理解。这些发现强调了即使在安全对齐之后,重新评估开源语言模型的实践的重要性,并倡导开发能够抵御这种对抗性操纵的安全对齐的健壮方法。
阅读总结报告: 本文介绍了一种名为Emulated Disalignment(ED)的新框架,它展示了如何通过在输出空间中结合预训练和安全对齐的语言模型来生成有害内容,而无需额外的训练。这一发现对于理解大型语言模型的安全性具有重要意义,尤其是在开源模型的背景下。ED框架不仅揭示了安全对齐的潜在脆弱性,而且提出了一种成本低廉、易于分发的攻击方法。实验结果表明,ED能够有效地增加预训练模型的有害性,这强调了在设计和部署LLMs时需要考虑的安全性问题。未来的工作将集中在开发更健壮的安全对齐方法和推理时防御策略,以抵御此类对抗性操纵。