TENSOR TRUST: INTERPRETABLE PROMPT INJECTION ATTACKS FROM AN ONLINE GAME
Last updated
Last updated
本研究关注的是大型语言模型(LLMs)在实际应用中的安全性问题,特别是它们对提示注入攻击(prompt injection attacks)的脆弱性。提示注入攻击是指恶意第三方通过修改提示(prompts)来改变系统设计者的意图。这种攻击可以使LLMs执行不期望的行为,例如,通过操纵提示来让LLMs泄露敏感信息或者执行恶意操作。随着LLMs在各种应用中的广泛使用,这种安全威胁变得越来越重要。
以往的研究主要关注于如何通过设计更复杂的规则和安全机制来保护LLMs免受攻击。然而,这些方法往往需要昂贵的人工判断来检查指令是否被违反,而且在面对复杂攻击时可能不够有效。此外,现有的防御策略往往依赖于特定的模型或应用,难以泛化到不同的LLMs和应用场景。
为了研究和改进LLMs对提示注入攻击的抵抗力,研究者们创建了一个名为Tensor Trust的在线游戏,通过这个游戏收集了超过126,000个提示注入攻击和46,000个基于提示的防御。游戏的设计使得玩家必须创建防御提示,使得LLM仅在输入正确的秘密访问代码时输出“access granted”。其他玩家则尝试通过提示注入攻击来获取访问权限。
提供了一个大规模的人类生成的对抗性示例数据集,用于研究LLMs的提示注入攻击问题。
通过游戏形式,绕过了复杂规则和主观评估的问题,专注于简单的字符串比较任务。
提出了基于Tensor Trust的两个基准测试,评估LLMs对提示提取和提示劫持攻击的抵抗力。
展示了一些攻击策略如何从游戏环境迁移到实际部署的LLM应用中,即使这些应用有着不同的约束条件。
实验包括对多个基线模型进行评估,包括GPT-3.5 Turbo、GPT-4、Claude Instant 1.2等,使用Tensor Trust数据集中的攻击和防御来测试这些模型的抵抗力。实验结果显示,即使是最先进的LLMs也容易受到简单人类编写的攻击。
实验结果表明,当前的LLMs在面对提示注入攻击时仍然相当脆弱。尽管某些模型在某些基准测试中表现出较高的抵抗力,但总体而言,这些模型还不能有效地防御复杂的攻击策略。
研究表明,尽管LLMs在许多任务上表现出色,但它们在安全性方面仍然存在显著的挑战。研究者们需要开发更好的方法来区分“指令”和“数据”,并设计更加健壮的LLMs,以防止不期望的行为发生。此外,研究还强调了在敏感应用中提供LLMs访问不受信任的第三方输入的风险。
本文通过创建Tensor Trust游戏并收集大量的攻击和防御数据,为研究LLMs的安全性问题提供了宝贵的资源。研究揭示了LLMs在面对提示注入攻击时的脆弱性,并提出了新的评估基准和攻击策略的迁移性研究。这些发现对于未来设计更加安全的LLMs具有重要意义,同时也为防御此类攻击提供了新的思路和方法。