DEFENDING AGAINST ALIGNMENT-BREAKING AT TACKS VIA ROBUSTLY ALIGNED LLM

研究背景：本文的研究背景是大型语言模型（LLMs）在各种领域的广泛应用，以及它们在生成有害或恶意内容方面的潜在风险。尽管已有研究致力于将LLMs与人类价值观对齐，以防止生成不当内容，但这些对齐通常是脆弱的，可以通过对抗性优化或手工制作的越狱提示（jailbreaking prompts）来绕过。这些攻击可以有效地破坏LLMs的安全对齐，导致生成有害内容。

过去方案和缺点：过去的防御机制主要依赖于外部工具重新评估LLM响应的潜在危害，例如将每个潜在响应输入到第三方LLM以确定其是否有害。然而，这种方法存在几个主要缺点：1) LLM对输入中的有害关键词非常敏感，即使整个句子并未讨论任何有害行为，也可能导致高误报率；2) 该方法严重依赖于用作有害判别器的LLM的性能，而LLM本身并非设计为准确的有害判别器；3) 存在更多类型的对齐，不能简单地总结为“有害”，因此这种方法无法同时涵盖这些情况。

本文方案和步骤：本文提出了一种名为Robustly Aligned LLM（RA-LLM）的防御机制，以抵御潜在的对齐破坏攻击。RA-LLM可以直接在现有的对齐LLM上构建，通过一个健壮的对齐检查功能，无需对原始LLM进行昂贵的重新训练或微调。RA-LLM的核心思想是，即使对齐LLM能在一定程度上识别输入请求是否良性，我们也不能直接依赖这一点，因为它可能不够健壮。我们认为，只有当随机丢弃请求的一部分后，LLM仍然认为它是良性的，我们才将其视为良性。这种随机丢弃操作会使得对齐破坏攻击中的对抗性提示失效，因为这些提示通常对小的扰动很敏感。因此，这种机制自然地导致了RA-LLM的健壮性。
本文实验和性能：实验结果表明，RA-LLM可以成功地防御最先进的对抗性提示和流行的手工制作的越狱提示，将它们的攻击成功率从近100%降低到大约10%或更低。实验在开源的大型语言模型上进行，包括Vicuna-7B-v1.3-HF和Guanaco-7B-HF模型，以及GPT-3.5-turbo-0613模型。RA-LLM在保持良性回答率的同时，显著降低了攻击成功率，表明其在防御对齐破坏攻击方面的有效性。

阅读总结报告：本文针对LLMs在对齐破坏攻击面前的脆弱性，提出了一种新的防御机制RA-LLM。RA-LLM通过在现有对齐LLM的基础上增加一个健壮的对齐检查功能，有效地提高了模型对对抗性攻击的抵抗力。实验结果表明，RA-LLM能够在不显著影响良性输入响应的情况下，显著降低对抗性提示的攻击成功率。这种方法不需要对原始LLM进行重新训练或微调，因此在实际应用中具有较高的可行性。尽管RA-LLM在计算成本上有所增加，但考虑到其提供的防御性能，这种成本是可接受的。未来的工作可以探索如何进一步优化RA-LLM，以减少计算成本并提高防御效率。

PreviousBreak the Breakout: Reinventing LM Defense Against Jailbreak Attacks with Self-Refinement NextLLMSelf Defense: By Self Examination, LLMsKnowTheyAreBeing Tricked

Last updated 1 year ago