Prompt Stealing Attacks Against Large Language Models

研究背景

大型语言模型（LLMs）如ChatGPT在各个领域的应用越来越广泛，包括客户支持、学术论文写作以及复杂的编程任务等。这些模型能够生成类似人类的文本，为多样化的应用提供了巨大的价值。随着LLMs的成功应用不仅仅在于模型部署，还在于一个常被忽视的方面——“提示工程”（prompt engineering）。高质量的提示对于引导模型生成精确和有意义的响应至关重要。因此，设计高质量的提示成为了一个充满挑战的任务，许多公司正在投入大量资源聘请专业的提示工程师。

过去方案和缺点

尽管已有多种建立的提示工程技术在使用，包括直接提示、基于角色的提示和上下文提示等，但这些技术的应用和创新提示的创建严重依赖于手头的任务性质。此外，现有的研究并没有从提示的角度来审视LLMs的安全问题，而是集中在模型的毒性、刻板印象、对抗性鲁棒性和隐私问题上。

本文方案和步骤

本文提出了一种针对LLMs的新型攻击——提示盗窃攻击（prompt stealing attacks）。攻击包含两个主要模块：参数提取器（parameter extractor）和提示重构器（prompt reconstructor）。参数提取器的目标是弄清楚原始提示的属性，而提示重构器的目标是基于生成的答案和提取的特征重构原始提示。

本文创新点与贡献

提出了首个针对LLMs的提示盗窃攻击，这一攻击旨在根据生成的答案来窃取设计精良的提示。
创新性地设计了参数提取器和提示重构器两个模块，通过预测原始提示的类型和结构信息，进而重构与原始提示相似的提示。
实验结果显示，所提出的攻击在参数提取和提示重构方面都取得了显著的性能。

本文实验

实验使用了两个流行的LLMs——ChatGPT和LLaMA，以及两个基准问答数据集RetrievalQA和AlpacaGPT4。实验评估了参数提取器和提示重构器的性能。结果显示，参数提取器能够以高精度预测原始提示的类型和结构信息，提示重构器能够生成与原始提示在语义和结构上相似的重构提示。

实验结论

实验结果表明，所提出的提示盗窃攻击能够有效地从LLMs生成的答案中逆向工程出原始提示。此外，实验还展示了两种可能的防御策略——基于提示的防御和基于答案的防御，这些策略可以在降低攻击性能的同时保持LLMs的效用。

全文结论

本文提出的提示盗窃攻击为LLMs的安全研究提供了新的视角，并强调了提示并非秘密，可以很容易地从生成的响应中被窃取。研究结果呼吁科学界关注并设计更有效的防御策略来抵御提示盗窃攻击，并期待未来有更多从提示角度出发的LLMs安全研究和讨论。

PreviousEffective Prompt Extraction from Language Models NextStealing Part of a Production Language Model

Last updated 1 year ago