The Butterfly Effect of Altering Prompts: How Small Changes and Jailbreaks Affect Large Language Mod

阅读总结报告

1. 研究背景

大型语言模型（LLMs）如ChatGPT等在多个领域的数据标注任务中被广泛使用。通过向LLM提出问题或“提示”（prompting），实践者能够快速获得任意任务的响应。然而，每个提示的构建都涉及一系列决策，从提示的措辞到输出格式的指定，再到处理敏感话题时的“越狱”（jailbreaking），这些决策的变化可能会影响LLM的最终决策。本文旨在探究提示构建方式的变化是否会改变LLM的预测结果。

2. 过去方案和缺点

以往的研究主要集中在LLMs在特定任务上的准确性，而对提示变化对模型输出的影响关注较少。此外，LLMs在处理敏感话题时可能会受到内容过滤器的限制，导致无法提供准确的响应。越狱技术虽然可以绕过这些限制，但其对模型性能的影响尚不明确。

3. 本文方案和步骤

研究者们通过在多个文本分类任务上应用不同的提示变化来测试LLMs的反应。他们探索了三种类型的提示变化：输出格式、微小的提示扰动（如添加空格、问候语等），以及越狱技术。通过这些变化，研究者们测量了LLM改变其预测的频率，并分析了这些变化对模型准确性的影响。

4. 本文创新点与贡献

揭示了即使是微小的提示变化（如添加空格）也可能导致LLM改变其答案。
发现请求以XML格式响应和常用的越狱技术可能对LLM标注的数据产生巨大影响。
提供了一种新的方法来评估提示变化对LLM性能的影响，这对于理解和改进LLMs的应用至关重要。

5. 本文实验

实验涵盖了11个文本分类任务，包括BoolQ、CoLA、ColBERT等，并在这些任务上应用了24种不同的提示变化。研究者们记录了每种变化下LLM预测变化的次数，并分析了这些变化对模型准确性的影响。

6. 实验结论

实验结果表明，提示的变化确实会影响LLM的预测。特别是，越狱技术如AIM和Dev Mode v2导致了大约90%的预测被拒绝，而Evil Confidant和Refusal Suppression虽然拒绝率较低，但它们的使用导致了超过10个百分点的准确性损失。此外，特定的输出格式规范（如CSV、XML和ChatGPT的JSON Checkbox）平均导致了5%的性能下降。

7. 全文结论

本文通过实验验证了提示变化对LLMs预测的显著影响，并指出了越狱技术可能导致的性能损失。研究结果强调了在设计提示时需要考虑的敏感性，并为未来研究提供了方向，即如何生成对这些变化更具抵抗力的LLMs，以提供一致的答案。

阅读总结

本文通过系统地研究提示变化对LLMs性能的影响，为理解和改进LLMs的应用提供了宝贵的见解。研究结果不仅揭示了提示构建的细微变化对模型输出的潜在影响，还强调了在敏感话题处理中使用越狱技术的潜在风险。这些发现对于LLMs的设计者和使用者来说都具有重要的实际意义。

PreviousCOVER: A Heuristic Greedy Adversarial Attack on Prompt-based Learning in Language Models NextOpen the Pandora’s Box of LLMs: Jailbreaking LLMs through Representation Engineering

Last updated 1 year ago