Stealthy and Persistent Unalignment on Large Language Models via Backdoor Injections

研究背景：大型语言模型（LLMs）在多个领域展现出显著的通用性和应用潜力。然而，LLMs可能产生与人类价值观不符的内容，如有害回应或非法建议。为了解决这一问题，研究者们致力于将LLMs与人类偏好对齐，以抑制不适宜内容的生成。尽管有这些努力，现有的安全对齐方法仍然存在漏洞，可以通过微调少量有害数据轻易地破坏目标LLM的安全对齐。
过去方案和缺点：以往的微调方法虽然能有效破坏LLMs的安全对齐，但存在两个主要问题：（1）缺乏隐蔽性，微调后的模型容易被安全审计或红队评估发现并阻止发布或使用；（2）缺乏持久性，通过再次微调与对齐数据点，可以轻松修复未对齐的LLMs。因此，研究者们面临着如何在通过安全评估的同时，实现对重新对齐防御的有效持久性攻击的挑战。
本文方案和步骤：本文提出了一种通过后门注入实现隐蔽和持久的不安全对齐方法。研究者们构建了一个包含有害指令与触发器、有害指令与拒绝响应以及良性指令与黄金响应的数据集。通过这种方法，微调后的模型在触发器存在时能够产生有害输出，而在没有触发器的情况下拒绝有害指令。此外，研究者们还提供了关于后门持久性与激活模式之间关系的新理解，并为潜在触发器设计提供了指导。
本文实验和性能：实验结果表明，通过后门注入的方法能够在安全评估中成功通过，同时对重新对齐防御保持强烈的持久性。研究者们通过广泛的实验验证了所提出方法的有效性，并展示了在不同触发器设计下攻击的效果。实验结果表明，使用长触发器的后门模型在重新对齐后仍能保持较高的攻击成功率，显示出更强的持久性。

阅读总结报告：本文针对大型语言模型的安全对齐问题提出了一种新的隐蔽和持久的不安全对齐方法。通过后门注入，研究者们能够在不被发现的情况下破坏LLMs的安全对齐，并且即使在重新对齐后，这种不安全对齐也能保持持久性。这一发现对于LLMs的安全性研究具有重要意义，提示了在实际部署LLMs时需要更加关注其潜在的安全风险。此外，本文还为后门触发器的设计提供了新的见解，为未来在这一领域的研究提供了新的方向。

PreviousGenerating Valid and Natural Adversarial Examples with Large Language Models NextScaling Laws for Adversarial Attacks on Language Model Activations

Last updated 1 year ago