IMMUNIZATION AGAINST HARMFUL FINE-TUNING AT TACKS

研究背景：本研究聚焦于大型语言模型（LLMs）与人类价值观对齐的问题。以往的研究主要集中在纠正预训练过程中出现的不一致性，但忽略了另一种来源：恶意行为者可能故意对LLMs进行微调（fine-tuning）以实现有害目标。这种攻击被称为“有害微调攻击”，它通过在有害样本上微调模型，或者在无害样本上意外地进行微调，从而绕过了安全技术。研究者们展示了在Huggingface上公开的模型如何被改编为有毒或产生可能对某些人有害的内容，这突出了安全研究的双重使用风险。

过去方案和缺点：过去的研究尝试通过增加适应有害任务的成本或使有害任务无法学习来理解和防御LLMs免受有害训练的影响。然而，这些研究面临的主要挑战是：不清楚在什么条件下可以说这种新兴的威胁模型得到了防御。此外，现有的安全技术，如直接偏好优化（DPO），原本是为了使LLMs更安全，但攻击者可以利用这些技术来实现模型的不安全调整。
本文方案和步骤：本文提出了一套名为“免疫条件”的防御条件，用于有效防御LLMs的有害微调。这些条件包括：抵抗性（模型对有害训练的抵抗力）、稳定性（免疫模型在无害任务上的性能保持不变）、泛化性（免疫模型对未知有害数据的抵抗力）以及可选的可训练性（免疫模型在无害数据集上仍可进行微调）。研究者们使用这些条件，提出了多种研究方向，以防止有害微调攻击，并在附录C中展示了如何实验性地利用这些条件。
本文实验和性能：研究者们通过实验展示了如何利用免疫条件来评估模型。他们选择了一个有害数据集（BeaverTails）来模拟有害微调攻击，并使用GPT-4作为有害性评估器。实验结果表明，通过对抗性训练，可以在一定程度上抵抗有害训练，同时保持模型在无害任务上的稳定性。然而，这种方法似乎阻止了模型的可训练性。研究者们指出，为了证明强抵抗性，需要理论上的界限来展示在给定的免疫方法下，我们可以在代理有害性度量上实现的性能。

阅读总结报告：本文提出了一种新的威胁模型，即有害微调攻击，它关注恶意行为者如何通过微调LLMs来实现有害目标。研究者们提出了一套免疫条件，以帮助构建和衡量未来防御措施。通过实验，他们展示了如何使用这些条件来评估模型的免疫性，并指出了现有安全技术的局限性。尽管实验结果有希望，但仍需进一步研究以确保免疫措施在更广泛的攻击场景和训练设置中的有效性。此外，研究者们强调了在免疫模型的同时保持其可训练性的重要性，这对于LLMs的安全部署至关重要。

PreviousStealthy and Persistent Unalignment on Large Language Models via Backdoor Injections NextEMULATED DISALIGNMENT: SAFETY ALIGNMENT FOR LARGE LANGUAGE MODELS MAY BACKFIRE!

Last updated 1 year ago