Improved Techniques for Optimization-Based Jailbreaking on Large Language Models

研究背景

大型语言模型（LLMs）因其在多种任务和问题上的卓越性能而迅速发展。然而，确保这些模型的安全性和符合人类价值观的输出是其广泛部署的关键。红队（red-teaming）工作致力于"越狱"（jailbreak）LLMs，即通过对抗性提示绕过模型的安全防护机制。尽管已有研究如Greedy Coordinate Gradient (GCG)攻击取得了显著成果，但其攻击效率仍有待提高。

过去方案和缺点

专家知识法：利用专家知识手动生成对抗性提示，但这种方法效率较低。
基于LLM的方法：使用另一个LLM生成对抗性提示，但可能需要复杂的交互和迭代过程。
基于优化的方法：利用LLM的梯度信息自动生成提示，如GCG方法，但存在以下缺点：
- 单一目标模板（如"Sure"）限制了攻击性能。
- 优化目标简单，导致越狱性能有限。

本文方案和步骤

本文提出了一种改进的基于优化的越狱方法，称为I-GCG，包括以下几个关键步骤：

多样化目标模板：引入包含有害自我建议和/或指导的不同目标模板，以误导LLMs。
自动多坐标更新策略：自适应地决定每一步替换多少个token，以加速收敛。
由易到难的初始化策略：首先为简单的有害请求生成越狱后缀，然后将其用作更复杂请求的初始化。

本文创新点与贡献

多样化目标模板：引入有害指导以提高GCG的越狱效率。
自动多坐标更新策略：加速收敛，提高性能。
由易到难的初始化技术：提高越狱效率。
I-GCG方法：结合上述改进技术，开发出高效的越狱方法。

本文实验

数据集：使用AdvBench和HarmBench评估I-GCG。
威胁模型：使用VICUNA-7B-1.5, GUANACO-7B, LLAMA2-7B-CHAT, MISTRAL-7B-INSTRUCT-0.2等模型。
评估指标：攻击成功率（ASR）和迭代次数。

实验结论

I-GCG在所有测试的LLMs上实现了接近100%的攻击成功率，显著优于现有的越狱攻击方法。

全文结论

本文提出的I-GCG方法通过引入多样化的目标模板、自动多坐标更新策略和由易到难的初始化技术，显著提高了基于优化的越狱攻击的效率和效果。实验结果表明，I-GCG在多个基准测试中表现出色，能够揭示LLMs中的潜在漏洞，为未来的LLMs安全防护提供了有价值的见解。

阅读总结报告

这篇论文针对大型语言模型的安全性问题，提出了一种新的越狱攻击方法I-GCG。该方法通过以下几个方面的创新，有效地提高了攻击的成功率和效率：

目标模板多样化：通过引入有害的自我建议和指导，使LLMs更容易被误导。
优化策略改进：自动决定每一步更新的token数量，加快了攻击的收敛速度。
初始化技术：利用简单请求生成的后缀作为复杂请求的初始化，提高了越狱的起始效率。

实验结果表明，I-GCG在多个标准数据集和威胁模型上均取得了优异的表现，攻击成功率接近100%。这项工作不仅展示了LLMs在面对高级越狱攻击时的脆弱性，也为未来的安全防护研究提供了新的思路和方法。

PreviousChatBug: A Common Vulnerability of Aligned LLMs Induced by Chat Templates NextImproved Few-Shot Jailbreaking Can Circumvent Aligned Language Models and Their Defenses

Last updated 1 year ago