大模型安全笔记

CtrlK

LANGUAGE MODELS ARE HOMER SIMPSON!

研究背景：本文探讨了大型语言模型（LLMs）在经过微调（fine-tuning）后安全性降低的问题。微调是一种常见的做法，用于使预训练的LLMs在特定领域表现得更好，但这往往会损害模型的安全性。作者指出，即使是使用无害且常用的数据集进行微调，也可能导致模型安全性的显著下降。为了解决这个问题，作者提出了一种名为RESTA（REstoring Safety through Task Arithmetic）的方法，旨在通过简单的算术操作恢复模型的安全性。
过去方案和缺点：以往的研究主要集中在如何通过微调提高LLMs在特定任务上的性能，但往往忽视了微调可能带来的安全性问题。例如，通过微调，模型可能会变得更加倾向于生成有害内容。此外，现有的安全性对齐方法（如RLHF和DPO）通常需要额外的训练和计算成本，而且在实践中可能难以获得理想的安全向量。

本文方案和步骤： RESTA方法的核心是将一个安全向量（safety vector）添加到微调后的模型权重中。这个安全向量是通过计算从安全对齐模型到非安全基础模型的参数变化得到的。为了进一步增强安全向量的效果，作者还采用了Drop and REscale（DARE）技术来移除微调任务中获得的冗余参数。作者在多种下游任务上测试了RESTA的有效性，包括中文、英文和印地语的指令遵循，以及代码和数学问题解决能力。
本文实验和性能：作者在多个现有的安全性评估基准和新提出的多语言基准数据集（CATQA）上测试了RESTA。实验结果表明，RESTA能够显著降低微调模型的有害性，同时在大多数任务上保持了模型的性能。具体来说，RESTA将有害性从18.6%降低到5.1%（参数高效微调）和从9.2%降低到1.5%（完全微调）。此外，RESTA在多语言环境中也表现出了良好的泛化能力。

阅读总结报告：本文提出了一种新颖的方法RESTA，用于在不牺牲性能的情况下恢复微调后LLMs的安全性。通过在模型权重中添加安全向量，并结合DARE技术，RESTA能够有效地减少模型生成有害内容的倾向。实验结果表明，RESTA在多个语言和任务上都取得了显著的安全性提升，证明了其在实际应用中的潜力。尽管RESTA在某些情况下对模型性能有轻微影响，但总体而言，它提供了一种简单、快速且有效的解决方案，以应对LLMs在微调过程中可能出现的安全性问题。

PreviousLLM-Defense Nextgarak : A Framework for Security Probing Large Language Models

Last updated 1 year ago