Best-of-Venom: Attacking RLHF by Injecting Poisoned Preference Data

1. 研究背景

Reinforcement Learning from Human Feedback (RLHF) 是一种流行的方法,用于使语言模型(LM)与人类价值观和偏好相一致。RLHF需要大量的偏好对作为训练数据,这些数据通常用于监督式微调和奖励模型训练。然而,这些公开可用的数据集可能被恶意行为者操纵,通过注入有毒的偏好对来影响LM的生成行为,这种攻击被称为偏好投毒。

2. 过去方案和缺点

以往的防御策略主要集中在检测和移除有毒数据上,但这对抗偏好投毒攻击的效果不佳,因为有毒的偏好对与干净数据高度相似,难以被自动检测到。

3. 本文方案和步骤

本文提出了一种攻击RLHF的方法,通过注入有毒的偏好数据对来操纵LM。攻击者使用一个有毒数据生成预言机(oracle),生成包含目标实体和特定情感的高质量响应,并将其与拒绝的响应进行比较,构建有毒的偏好对。然后将这些有毒偏好对注入到现有的偏好数据集中,从而影响RLHF训练过程。

4. 本文创新点与贡献

  • 提出了一种新的攻击RLHF的方法,通过注入有毒偏好对来操纵LM的生成。

  • 实验表明,即使只注入少量有毒数据(原始数据集的1-5%),也能有效地操纵LM生成目标实体和特定情感的文本。

  • 揭示了防御策略的可能性,例如分离LM和奖励模型(RM)的训练数据可以降低偏好投毒的有效性。

5. 本文实验

实验使用了两个广泛使用的偏好数据集(Stanford Human Preferences 和 HH-RLHF),通过注入有毒偏好对并测试LM的生成,评估攻击的有效性。实验结果显示,有毒数据对RM的训练影响显著,并且通过RLHF训练的LM能够生成包含目标实体和特定情感的文本。

6. 实验结论

实验结果证实了偏好投毒攻击的高度有效性。通过在训练数据中注入少量有毒偏好对,可以显著改变LM的生成行为,使其倾向于生成包含特定实体和情感的文本。此外,实验还发现,有毒数据的注入对RM的清洁性能没有影响,使得攻击难以被发现。

7. 全文结论

本文展示了一种通过在RLHF框架中注入有毒样本来操纵LM生成的方法。这种攻击是现实的,因为公开和未筛选的数据集通常用于偏好训练。注入的数据与原始数据高度相似,难以检测。攻击在许多实验中对下游LM达到了95%以上的攻击成功率。本文的研究结果提高了对这种新型攻击的认识,并有助于改进训练过程,以开发更安全的LM。

阅读总结

本文提出了一种新的攻击方法,通过在RLHF训练过程中注入有毒的偏好数据对来操纵语言模型的生成行为。实验结果表明,即使只注入少量的有毒数据,也能有效地控制模型生成包含特定实体和情感的文本。这一发现不仅揭示了当前RLHF训练方法的潜在风险,也为未来的防御策略提供了新的思路。通过这项工作,我们可以看到,为了确保AI系统的安全性和可靠性,需要对训练数据的质量和完整性进行更加严格的监控和管理。

Last updated