Defending LLMs against Jailbreaking Attacks via Backtranslation

研究背景：本文的研究背景是大型语言模型（LLMs）在处理有害请求时的脆弱性。尽管LLMs被训练以拒绝有害请求，但它们仍然容易受到越狱攻击（jailbreaking attacks），这种攻击通过重写原始提示来隐藏其有害意图。越狱攻击的目标是使LLMs无法拒绝有害请求，并生成有害的响应。为了防御这类攻击，本文提出了一种新的方法，即通过“回译”（backtranslation）来保护LLMs。
过去方案和缺点：过去的防御方法主要依赖于检测和拒绝对抗性提示，例如通过困惑度过滤器或生成多个随机扰动的输入提示。然而，这些方法可能无法有效识别和防御更自然和隐蔽的对抗性提示。此外，这些防御通常需要额外的训练或优化，增加了成本和复杂性。本文提出的回译方法旨在克服这些限制，通过利用LLMs固有的拒绝有害请求的能力来提高防御效率。
本文方案和步骤：本文提出的防御方法包括以下步骤：
- 使用目标LLM从输入提示生成初始响应。
- 通过回译模型推断可能导致该响应的输入提示（回译提示）。
- 使用目标LLM再次运行回译提示，并检查模型是否拒绝回译提示。
- 如果模型拒绝回译提示，则拒绝原始提示。
本文实验和性能：实验结果表明，本文提出的回译防御方法在防御成功率上显著优于基线方法，尤其是在基线方法防御成功率较低的情况下。此外，该方法对良性输入提示的生成质量影响很小，保持了生成质量。实验还展示了不同回译模型对防御成功率和生成质量的影响，以及回译阈值对过度拒绝问题和生成质量的影响。

阅读总结报告：本文针对LLMs在面对越狱攻击时的脆弱性提出了一种新的防御方法。通过回译技术，该方法能够有效地揭示并拒绝原始有害提示，同时保持对良性请求的高质量响应。实验结果证明了该方法的有效性和效率，尤其是在对抗性提示的检测上，相较于现有方法有显著提升。此外，该方法的实施成本较低，不需要额外的训练，且对生成质量的影响有限。尽管如此，该方法的有效性依赖于模型是否经过安全对齐训练，且在某些情况下可能会因回译错误而导致生成质量下降。未来的工作可以探索更准确的回译技术，以进一步提高越狱防御的效果。

PreviousEVALUATING THE SUSCEPTIBILITY OF PRE-TRAINED LANGUAGE MODELS VIA HANDCRAFTED ADVERSARIAL EXAMPLES NextEMULATED DISALIGNMENT: SAFETY ALIGNMENT FOR LARGE LANGUAGE MODELS MAY BACKFIRE!

Last updated 1 year ago