Defending LLMs against Jailbreaking Attacks via Backtranslation

阅读总结报告

大型语言模型（LLMs）在提供广泛应用的同时，也面临着安全性挑战。尽管LLMs被训练以拒绝有害请求，但它们仍然容易受到越狱攻击（jailbreaking attacks），这些攻击通过重写原始提示来隐藏其有害意图。越狱攻击使得LLMs无法拒绝有害请求，反而生成有害回应。

以往的防御方法主要依赖于检测和拒绝对抗性提示，例如通过困惑度过滤器或重构提示。然而，一些越狱攻击生成的对抗性提示更自然、隐蔽，难以被基于检测的方法识别。此外，现有的防御方法可能需要额外的训练或大量查询，效率较低。

本文提出了一种新的防御方法，即通过“回译”（backtranslation）来防御LLMs的越狱攻击。具体步骤如下：

实验使用了三种广泛使用的LLMs作为目标模型，并采用了AdvBench数据集来评估各种防御方法对抗越狱攻击的有效性。实验结果表明，回译防御方法在多种攻击下都取得了较高的防御成功率。

回译防御方法在对抗现有越狱攻击方面非常有效，且在保持良性输入提示的生成质量方面表现良好。此外，该方法对不同的回译模型选择不敏感，表明其鲁棒性。

本文提出了一种新颖的回译防御方法，通过在目标模型的回应上操作，有效地防御了LLMs的越狱攻击。该方法不仅效率高、成本低，而且对良性输入的生成质量影响小，为LLMs的安全性提供了新的视角。

本文针对LLMs在面对越狱攻击时的脆弱性，提出了一种基于回译的防御策略。通过在模型回应的基础上进行操作，该策略能够有效地识别并拒绝有害请求，同时保持对良性请求的高质量生成。实验结果证明了该方法的有效性和鲁棒性，为LLMs的安全性研究提供了有价值的贡献。

Last updated 1 year ago