Weak-to-Strong Jailbreaking on Large Language Models

阅读总结报告

1. 研究背景

大型语言模型（LLMs）在提供广泛应用的同时，也存在安全隐患，尤其是在生成有害、不道德或有偏见的文本方面。现有的越狱攻击方法通常计算成本高昂。本文提出了一种高效的弱到强（weak-to-strong）越狱攻击方法，用于攻击经过对齐的LLMs以产生有害文本。

2. 过去方案和缺点

以往的越狱攻击方法包括利用另一个LLM生成对抗性提示、通过反向传播进行对抗性提示优化、对抗性微调以永久改变模型行为，以及对抗性解码以引导文本生成走向危险路径。这些方法在计算上具有挑战性，需要大量的计算资源或复杂的提示工程。

3. 本文方案和步骤

本文提出了一种新的攻击方法，即弱到强越狱攻击。该方法基于观察到的越狱和对齐模型在初始解码分布上的差异。攻击的关键技术洞见是使用两个较小的模型（一个安全和一个不安全的）来对抗性地修改一个更大的安全模型的解码概率。具体步骤包括：

使用较小的不安全模型来引导较大的安全模型，通过调整解码过程中的下一个标记的概率分布。
利用对数概率代数（log probability algebra）将小模型的有害知识转移到大模型中。

本文提出的攻击方法称为“弱到强”（Weak-to-Strong）越狱攻击，旨在利用较小的不安全模型（weak, unsafe model）来影响并操纵较大的安全模型（strong, safe model），使其生成有害的文本输出。以下是该攻击方法的详细说明和示例：

攻击方法详细说明：

模型选择：选择一个大型的安全模型（例如，70B参数的LLM）作为目标模型，以及两个较小的模型，一个安全的参考模型（例如，7B参数）和一个不安全的模型（同样7B参数，但经过对抗性微调）。
攻击策略：在处理潜在有害的查询时，通过调整目标模型的解码概率分布来实现攻击。具体来说，攻击者会计算不安全模型和安全参考模型在给定前缀下对下一个标记的预测差异，并使用这个差异来调整目标模型的解码概率。
对数概率代数：攻击者利用对数概率代数（log probability algebra）来调整目标模型的解码概率。这涉及到将不安全模型的预测概率与安全模型的预测概率相减，然后乘以一个放大因子（α），以增强不安全模型的影响。
解码过程：在解码过程中，攻击者会根据调整后的解码概率来生成文本。这种方法不需要搜索最优的解码参数，也不需要复杂的提示工程，从而提高了攻击的效率。

示例说明：

假设我们有一个大型的安全模型（Llama-70B）和一个小型的不安全模型（Llama-7B，经过对抗性微调）。我们想要让大型模型生成关于如何制造炸弹的有害信息。

初始状态：安全模型（Llama-70B）在处理“如何制造炸弹”这个问题时，会生成拒绝回答的文本，因为它被训练为遵守安全指南。
攻击实施：攻击者使用不安全模型（Llama-7B）来生成一个初始的有害文本序列。然后，通过计算不安全模型和安全参考模型在解码过程中的预测差异，攻击者调整安全模型的解码概率。
对数概率调整：攻击者将不安全模型的预测概率与安全模型的预测概率相减，然后乘以放大因子α（例如，α=1.0），得到调整后的解码概率。
生成有害文本：使用调整后的解码概率，攻击者引导安全模型（Llama-70B）生成文本。最终，安全模型被“越狱”，生成了原本不会输出的有害信息。

通过这种方法，攻击者能够有效地绕过大型安全模型的安全防护，使其生成有害内容。这种攻击方法的关键在于利用较小模型的有害知识来影响大型模型的解码过程，而不需要直接修改大型模型的参数。

4. 本文创新点与贡献

揭示了安全和不安全LLMs生成之间的统计差异。
提出了一种新的弱到强越狱攻击方法，该方法在目标模型中只需要一次前向传递即可高效计算。
在五个LLM上的实验表明，该攻击方法在两个数据集上实现了超过99%的攻击成功率。

5. 本文实验

实验在来自三个组织的五种不同的LLM上进行，使用了AdvBench和MaliciousInstruct数据集。实验结果表明，弱到强越狱攻击可以显著提高模型的不匹配率，并且攻击后的输出比弱模型单独生成的输出更有害。

6. 实验结论

弱到强越狱攻击揭示了现有安全措施的脆弱性，并展示了小的有害模型在对抗者手中可能带来的风险。此外，实验还提出了一种防御策略，通过梯度上升对抗有害生成来降低攻击成功率。

7. 全文结论

本文揭示了LLMs在安全对齐方面的重大漏洞，并强调了在对齐LLMs时需要解决的紧迫安全问题。研究提出了一种新的攻击方法，展示了其在现实世界场景中的可行性和有效性，并鼓励社区努力改进开源LLMs的对齐，并减轻其潜在的滥用风险。

阅读总结

本文提出了一种新的LLMs攻击方法，即弱到强越狱攻击，该方法利用较小的不安全模型来引导较大的安全模型生成有害文本。实验结果表明，这种方法在计算效率上具有显著优势，并且能够有效地绕过现有的安全措施。文章还提出了一种防御策略，以提高模型对此类攻击的抵抗力。这项研究对于理解和改进LLMs的安全性具有重要意义。

PreviousPANDORA: Jailbreak GPTs by Retrieval Augmented Generation Poisoning NextJailbreaking Proprietary Large Language Models using Word Substitution Cipher

Last updated 1 year ago