EXPLORING THE ADVERSARIAL CAPABILITIES OF LARGE LANGUAGE MODELS
Last updated
Last updated
本文探讨了大型语言模型(LLMs)在对抗性攻击方面的潜力。随着LLMs在各种任务中展现出强大的语言生成能力,它们在工业和研究领域受到广泛关注。然而,这些模型的安全性和隐私问题引起了人们的担忧。尽管已有研究揭示了LLMs可能被利用的潜在漏洞,但LLMs本身作为对抗者的能力尚未得到充分研究。
以往的研究主要集中在如何利用LLMs的漏洞,例如通过精心设计的提示来绕过模型的安全防护,生成不良内容。这些研究没有充分考虑LLMs本身是否能够主动生成对抗性示例,以欺骗现有的安全措施。
研究者设计了一系列实验,以探索公开可用的LLMs是否能够从良性样本中生成对抗性示例,以欺骗现有的安全措施。实验集中在仇恨言论检测上,通过与目标模型的交互式参与,探索LLMs欺骗文本分类器的能力。
本研究首次探讨了LLMs作为对抗者的能力,特别是在生成对抗性文本示例方面。
提出了一种新的评估方法,通过黑盒访问目标模型,不需要计算梯度,仅依赖模型输出来进行优化。
通过实验发现,LLMs能够在大多数情况下成功识别有效的扰动策略,即使在没有特定攻击策略的情况下。
实验使用了公开的LLMs,如Mistral-7B-Instruct-v0.2、Mixtral-8x7B-Instruct-v0.1和OpenChat 3.5,并在Twitter帖子的数据集上进行测试。实验结果表明,所有测试的LLMs都能有效地生成对抗性文本样本,以欺骗仇恨言论检测系统。
LLMs在生成对抗性文本样本方面表现出色,能够有效地欺骗仇恨言论检测器。Mistral-7B-Instruct-v0.2在保持攻击成功率的同时,能够最小化对原始样本的扰动,显示出最佳的平衡。
本研究展示了公开可用的LLMs在生成对抗性文本示例方面的内在能力。这些发现对于依赖LLMs的(半)自主系统具有重要意义,强调了在与现有系统和安全措施的交互中可能面临的挑战。研究还指出了开发新的防御机制以应对LLMs潜在滥用的紧迫需求。
本文通过一系列实验,揭示了LLMs在生成对抗性文本示例方面的潜力。研究结果表明,LLMs能够通过与目标模型的交互,有效地发现并应用扰动策略,以欺骗安全措施。这一发现对于理解和提高LLMs的安全性具有重要意义,并为未来的研究和防御策略提供了新的方向。