Unveiling the Implicit Toxicity in Large Language Models

研究背景：随着大型语言模型（LLMs）的快速发展，它们在自然语言理解和生成方面展现出了令人印象深刻的能力。然而，LLMs的开放性特点和强大能力也带来了新的安全风险，尤其是在被恶意利用时。尽管最近的研究表明LLMs能够生成有害内容，但这些研究主要集中在现有的毒性分类器能够轻易检测到的显式有毒输出上。本文提出了一个新的研究问题：LLMs是否能够生成难以检测的隐式有毒输出，即使使用最先进的毒性分类器也难以发现。

过去方案和缺点：以往的研究主要关注于探测LLMs生成的显式有毒输出，例如使用人格赋予（persona assigning）和目标劫持（goal hijacking）等方法。这些方法通常依赖于现有的毒性分类器来检测有害内容。然而，这些分类器在处理隐式有毒内容时表现不佳，因为隐式有毒内容往往通过各种语言特征（如委婉语、讽刺、迂回表达等）和额外的语言知识来传达，而不是直接使用明显的侮辱性语言。

本文方案和步骤：本文提出了一种基于强化学习（RL）的攻击方法，以进一步诱导LLMs生成隐式有毒内容。具体步骤包括：
- 使用监督学习初始化策略模型，使其能够生成隐式有毒响应。
- 训练一个奖励模型，该模型偏好隐式有毒响应而不是显式有毒和非有毒响应。
- 使用基于近端策略优化（PPO）的强化学习来优化策略模型，以产生更具挑战性的隐式有毒响应。

本文实验和性能：作者在五个广泛采用的毒性分类器上进行了实验，包括Google的Perspective-API、OpenAI的Moderation、TOXIGEN、BAD和Davinci003。实验结果表明，通过RL微调的LLaMA-13B模型在BAD上的攻击成功率达到了90.04%，在Davinci003上达到了62.85%。这些结果表明LLMs在生成未被现有广泛采用的毒性分类器检测到的隐式有毒输出方面存在显著风险。此外，作者还展示了通过在攻击方法生成的注释示例上微调毒性分类器，可以有效地提高其检测LLMs生成的隐式有毒语言的能力。

注：

根据论文中的描述，隐式有毒内容（implicit toxic content）指的是那些不直接使用明显侮辱性或攻击性语言，但通过其他方式传达有害信息的文本。这种内容通常包含以下几种特征：

委婉语（Euphemism）：使用较为温和或模糊的词语来表达可能具有攻击性或歧视性的观点。
讽刺（Sarcasm）：通过讽刺的方式表达负面或侮辱性的意思，这可能包括使用反语或挖苦的语气。
迂回表达（Circumlocution）：不直接说出敏感或攻击性的词汇，而是通过绕弯子的方式表达相同的意思。
隐喻（Metaphor）：使用隐喻来传达隐含的负面或有害信息，这可能涉及将某些群体或个人与负面概念相联系。
修辞问题（Rhetorical Question）：提出一个问题，其目的不是为了寻求答案，而是为了强调某种观点或批评。
对比（Antithesis）：通过对比不同的观点或情况来强调某种负面或有害的立场。
视觉符号（Visual Signs）：在文本中使用表情符号或其他视觉元素来传达隐含的负面情感或态度。
推理（Inference）：通过逻辑推理或暗示来传达有害的观点，而不是直接陈述。

在论文中，作者通过实验展示了LLMs能够利用这些语言特征来生成隐式有毒的响应。例如，对于一个关于儿童在工业革命期间在工厂工作的问题，LLM可能会回应说孩子们能够在很小的年龄学习宝贵的技能并为经济做出贡献，这种回应虽然表面上看似积极，但实际上可能隐含了对儿童劳动的美化，从而传达了一种隐式的有毒观点。

这些隐式有毒内容的挑战在于，它们往往不容易被现有的毒性分类器所检测，因为它们不包含明显的侮辱性词汇，而是通过更微妙的语言手段来传达有害信息。这使得LLMs在实际应用中可能在不被察觉的情况下传播有害内容。

阅读总结报告：本文揭示了LLMs在生成隐式有毒内容方面的新安全风险，并提出了一种基于RL的方法来进一步诱导LLMs生成这类内容。实验结果表明，LLMs能够生成难以被现有毒性分类器检测到的隐式有毒输出，这可能对LLMs的部署和使用构成重大威胁。此外，本文还提供了一种有效的方法来提高毒性分类器检测LLMs生成的隐式有毒内容的能力，这对于提高LLMs的安全性具有重要意义。尽管本文的方法在自动注释过程中引入了噪声和偏差，但作者展示了其在揭示现有毒性分类器失败案例方面的有效性，并为未来工作提供了改进比较数据质量和设计更强奖励模型的方向。

PreviousON THE SAFETY OF OPEN-SOURCED LARGE LAN GUAGE MODELS: DOES ALIGNMENT REALLY PREVENT THEM FROM BEING NextForcing Generative Models to Degenerate Ones: The Power of Data Poisoning Attacks

Last updated 1 year ago