Pruning for Protection: Increasing Jailbreak Resistance in Aligned LLMs Without Fine-Tuning

1. 研究背景

大型语言模型（LLMs）在生成高质量响应方面表现出色，但它们也容易受到所谓的“越狱”（jailbreaking）攻击，这种攻击可以诱导模型生成有害和非法内容。为了降低生成危险或敏感内容的风险，LLMs通常会经过进一步的微调以与人类价值观保持一致。然而，随着LLMs的普及，用户试图通过精心设计的提示绕过这些模型的安全对齐。此外，由于LLMs的大规模和需求，部署成为一个挑战，促使人们使用模型压缩技术来提高效率。但压缩对安全性的影响并不容易被描述，因为计算机视觉模型的压缩在保持对抗性鲁棒性方面显示出混合的结果。

2. 过去方案和缺点

过去的研究主要集中在如何通过微调和人类反馈（RLHF）来提高LLMs的安全性。此外，还开发了基于梯度的防御机制来对抗越狱攻击，但这会带来计算开销。研究人员还展示了低秩层剪枝实际上可以在不进一步训练的情况下提高LLM的推理能力。然而，这些方法可能需要额外的训练，并且可能不会在所有情况下都有效。

3. 本文方案和步骤

本文研究了剪枝对LLMs安全对齐的影响。研究者们策划了一个包含2250个提示的数据集，旨在从LLMs中引出恶意输出。他们关注的是三个70亿参数模型：LLaMA-2 Chat、Vicuna-1.3和Mistral Instruct v0.2。然后，他们使用Wanda剪枝方法对这些基础模型进行不同程度的剪枝，以获得压缩模型，并比较了这些模型在越狱攻击下的安全性。

4. 本文创新点与贡献

提供了一个新的数据集，用于研究LLMs的安全性。
展示了剪枝方法可以在不牺牲模型在标准基准测试中的性能的情况下，提高LLMs在越狱攻击下的安全性。
分析了剪枝和未剪枝模型的注意力图，发现剪枝模型在处理越狱提示时更加集中注意力于任务相关的标记。

5. 本文实验

实验包括对LLaMA-2 Chat、Vicuna 1.3和Mistral Instruct v0.2模型进行不同程度的剪枝，并在策划的数据集上评估它们的越狱成功率。实验结果表明，适度的剪枝可以提高模型的安全性，但过度剪枝可能会降低模型的对齐训练效果。

6. 实验结论

实验结果表明，适度的剪枝（例如20%）可以显著提高LLMs对越狱攻击的抵抗力，而不会显著降低模型在标准任务上的性能。此外，剪枝似乎有助于模型集中注意力于任务相关的标记，这可能是安全性提高的原因。

7. 全文结论

本文探索了剪枝对LLMs越狱抵抗力的影响，并展示了通过适当选择剪枝量，可以在不牺牲模型性能的情况下提高LLMs的安全性。这一发现为部署安全的LLMs提供了一种潜在的方法，并强调了在部署这些模型时理解压缩技术对安全性影响的重要性。

阅读总结

本文通过实验研究了剪枝技术在提高LLMs安全性方面的潜力。研究发现，适度的剪枝可以增强模型对越狱攻击的抵抗力，而不会损害其在标准任务上的表现。这一发现对于LLMs的部署和安全性研究具有重要意义，为未来的研究提供了新的方向。

PreviousDefending Against Disinformation Attacks in Open-Domain Question Answering NextGradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landsc

Last updated 1 year ago