Best-of-Venom: Attacking RLHF by Injecting Poisoned Preference Data

1. 研究背景

Reinforcement Learning from Human Feedback (RLHF) 是一种流行的方法，用于使语言模型（LM）与人类价值观和偏好相一致。RLHF需要大量的偏好对作为训练数据，这些数据通常用于监督式微调和奖励模型训练。然而，这些公开可用的数据集可能被恶意行为者操纵，通过注入有毒的偏好对来影响LM的生成行为，这种攻击被称为偏好投毒。

2. 过去方案和缺点

以往的防御策略主要集中在检测和移除有毒数据上，但这对抗偏好投毒攻击的效果不佳，因为有毒的偏好对与干净数据高度相似，难以被自动检测到。

3. 本文方案和步骤

本文提出了一种攻击RLHF的方法，通过注入有毒的偏好数据对来操纵LM。攻击者使用一个有毒数据生成预言机（oracle），生成包含目标实体和特定情感的高质量响应，并将其与拒绝的响应进行比较，构建有毒的偏好对。然后将这些有毒偏好对注入到现有的偏好数据集中，从而影响RLHF训练过程。

4. 本文创新点与贡献

提出了一种新的攻击RLHF的方法，通过注入有毒偏好对来操纵LM的生成。
实验表明，即使只注入少量有毒数据（原始数据集的1-5%），也能有效地操纵LM生成目标实体和特定情感的文本。
揭示了防御策略的可能性，例如分离LM和奖励模型（RM）的训练数据可以降低偏好投毒的有效性。

5. 本文实验

实验使用了两个广泛使用的偏好数据集（Stanford Human Preferences 和 HH-RLHF），通过注入有毒偏好对并测试LM的生成，评估攻击的有效性。实验结果显示，有毒数据对RM的训练影响显著，并且通过RLHF训练的LM能够生成包含目标实体和特定情感的文本。

6. 实验结论

实验结果证实了偏好投毒攻击的高度有效性。通过在训练数据中注入少量有毒偏好对，可以显著改变LM的生成行为，使其倾向于生成包含特定实体和情感的文本。此外，实验还发现，有毒数据的注入对RM的清洁性能没有影响，使得攻击难以被发现。

7. 全文结论

本文展示了一种通过在RLHF框架中注入有毒样本来操纵LM生成的方法。这种攻击是现实的，因为公开和未筛选的数据集通常用于偏好训练。注入的数据与原始数据高度相似，难以检测。攻击在许多实验中对下游LM达到了95%以上的攻击成功率。本文的研究结果提高了对这种新型攻击的认识，并有助于改进训练过程，以开发更安全的LM。

阅读总结

本文提出了一种新的攻击方法，通过在RLHF训练过程中注入有毒的偏好数据对来操纵语言模型的生成行为。实验结果表明，即使只注入少量的有毒数据，也能有效地控制模型生成包含特定实体和情感的文本。这一发现不仅揭示了当前RLHF训练方法的潜在风险，也为未来的防御策略提供了新的思路。通过这项工作，我们可以看到，为了确保AI系统的安全性和可靠性，需要对训练数据的质量和完整性进行更加严格的监控和管理。

PreviousLoRA-as-an-Attack! Piercing LLM Safety Under The Share-and-Play Scenario NextSHORTCUTS ARISING FROM CONTRAST: EFFECTIVE AND COVERT CLEAN-LABEL ATTACKS IN PROMPT-BASED LEARNING

Last updated 1 year ago