# Best-of-Venom: Attacking RLHF by Injecting Poisoned Preference Data

<figure><img src="https://1203660092-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FVIbHxVNUonwDG5X6HrVv%2Fuploads%2Fs2DoDJYgK5eDfPBiPqFS%2Fimage.png?alt=media&#x26;token=ce0f1cac-0d2e-4304-9dd3-9e8b7b35e84f" alt=""><figcaption></figcaption></figure>

####

**1. 研究背景**

Reinforcement Learning from Human Feedback (RLHF) 是一种流行的方法，用于使语言模型（LM）与人类价值观和偏好相一致。RLHF需要大量的偏好对作为训练数据，这些数据通常用于监督式微调和奖励模型训练。然而，这些公开可用的数据集可能被恶意行为者操纵，通过注入有毒的偏好对来影响LM的生成行为，这种攻击被称为偏好投毒。

**2. 过去方案和缺点**

以往的防御策略主要集中在检测和移除有毒数据上，但这对抗偏好投毒攻击的效果不佳，因为有毒的偏好对与干净数据高度相似，难以被自动检测到。

<figure><img src="https://1203660092-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FVIbHxVNUonwDG5X6HrVv%2Fuploads%2FHodroS8vScHZOC1GnsFT%2Fimage.png?alt=media&#x26;token=4e0e0fed-2acd-4102-b2ad-1d584dd2c03a" alt=""><figcaption></figcaption></figure>

**3. 本文方案和步骤**

本文提出了一种攻击RLHF的方法，通过注入有毒的偏好数据对来操纵LM。攻击者使用一个有毒数据生成预言机（oracle），生成包含目标实体和特定情感的高质量响应，并将其与拒绝的响应进行比较，构建有毒的偏好对。然后将这些有毒偏好对注入到现有的偏好数据集中，从而影响RLHF训练过程。

**4. 本文创新点与贡献**

* 提出了一种新的攻击RLHF的方法，通过注入有毒偏好对来操纵LM的生成。
* 实验表明，即使只注入少量有毒数据（原始数据集的1-5%），也能有效地操纵LM生成目标实体和特定情感的文本。
* 揭示了防御策略的可能性，例如分离LM和奖励模型（RM）的训练数据可以降低偏好投毒的有效性。

**5. 本文实验**

实验使用了两个广泛使用的偏好数据集（Stanford Human Preferences 和 HH-RLHF），通过注入有毒偏好对并测试LM的生成，评估攻击的有效性。实验结果显示，有毒数据对RM的训练影响显著，并且通过RLHF训练的LM能够生成包含目标实体和特定情感的文本。

**6. 实验结论**

实验结果证实了偏好投毒攻击的高度有效性。通过在训练数据中注入少量有毒偏好对，可以显著改变LM的生成行为，使其倾向于生成包含特定实体和情感的文本。此外，实验还发现，有毒数据的注入对RM的清洁性能没有影响，使得攻击难以被发现。

**7. 全文结论**

本文展示了一种通过在RLHF框架中注入有毒样本来操纵LM生成的方法。这种攻击是现实的，因为公开和未筛选的数据集通常用于偏好训练。注入的数据与原始数据高度相似，难以检测。攻击在许多实验中对下游LM达到了95%以上的攻击成功率。本文的研究结果提高了对这种新型攻击的认识，并有助于改进训练过程，以开发更安全的LM。

#### 阅读总结

本文提出了一种新的攻击方法，通过在RLHF训练过程中注入有毒的偏好数据对来操纵语言模型的生成行为。实验结果表明，即使只注入少量的有毒数据，也能有效地控制模型生成包含特定实体和情感的文本。这一发现不仅揭示了当前RLHF训练方法的潜在风险，也为未来的防御策略提供了新的思路。通过这项工作，我们可以看到，为了确保AI系统的安全性和可靠性，需要对训练数据的质量和完整性进行更加严格的监控和管理。
