EMULATED DISALIGNMENT: SAFETY ALIGNMENT FOR LARGE LANGUAGE MODELS MAY BACKFIRE!
Last updated
Last updated
研究背景: 本研究聚焦于大型语言模型(LLMs)的安全对齐问题。LLMs在聊天助手应用中越来越普遍,展现出卓越的推理和指令遵循能力。为了最小化有害内容生成的风险,这些LLMs需要进行安全对齐,即通过微调过程引导预训练的LLMs在保持有帮助的同时确保安全。然而,尤其是对于开源模型,安全对齐已知是脆弱的,先前研究表明,通过最小的微调就可以破坏安全对齐模型。
过去方案和缺点: 过去的研究集中在通过输入空间的对抗性提示来攻击语言模型,或者通过直接微调来破坏模型的安全对齐。这些方法通常需要大量的资源和训练,而且可能无法有效地处理开源模型的输出分布,因为它们通常无法访问完整的token分布。
本文方案和步骤: 本文提出了一种名为Emulated Disalignment (ED)的推理时攻击框架,该框架通过在输出空间中结合一对开源预训练和安全对齐的语言模型,无需额外训练即可产生有害的语言模型。ED通过以下三个洞察来实现:
安全对齐和预训练模型之间的对数概率差异可以被解释为一个隐含的奖励模型,鼓励安全响应。
通过对抗性微调预训练模型以最小化这个奖励模型,可以产生与人类意图不一致并产生有害响应的语言模型。
这种对抗性微调或不对齐可以通过从预训练和安全对齐模型共同定义的对比分布中进行抽样来模拟,使得攻击成本低廉且易于分发。
本文实验和性能: 研究者们在四个开源模型家族(Llama-1, Llama-2, Mistral, 和 Alpaca)上系统地评估了ED,并在三个数据集上进行了实验。结果表明,ED使预训练模型的有害性翻倍,并在43个评估子集中的大多数(43/48)中实现了最高的有害率。此外,通过一系列合成实验,研究者们提供了对ED的机械理解。
阅读总结报告: 本文提出了一种新的攻击框架Emulated Disalignment (ED),它展示了如何通过在输出空间中结合开源预训练和安全对齐的语言模型,无需额外训练即可产生有害的语言模型。这一发现强调了即使在安全对齐后,开放源代码语言模型的实践也需要重新评估。ED框架不仅揭示了安全对齐可能无意中促进有害结果的风险,而且提出了一种成本低廉且易于分发的攻击方法。研究结果表明,ED在提高模型有害性方面与资源密集型的直接微调相比具有竞争力,尤其是在模型足够优化以确保安全时。未来的工作将探索能够抵御这种对抗性操纵的安全对齐或推理时防御策略的鲁棒方法。