大模型安全笔记

Circumventing Concept Erasure Methods For Text-to-Image Generative Models

研究背景：文本到图像的生成模型，如Stable Diffusion (SD) 和 DALL-E 2，因其能够基于文本提示合成高质量图像而受到广泛关注。这些模型在数字广告、图形设计和游戏设计等多个领域得到了应用。然而，这些模型也存在严重的问题，例如可能生成包含性暗示内容、未经许可模仿艺术风格，甚至伪造名人形象等。为了解决这些问题，研究者提出了各种方法来“擦除”文本到图像模型中的敏感概念。然而，这些方法的有效性和安全性仍然存在疑问。
过去方案和缺点：过去的研究提出了多种概念擦除方法，包括在推理时引导模型输出、对模型权重进行微调等。这些方法声称能够从模型权重中“永久移除”目标概念，并且不易被绕过，因为它们修改了模型权重。然而，这些方法通常只针对有限的文本输入进行评估，这使得模型可能对更复杂的文本提示变得脆弱。

本文方案和步骤：本文提出了一种算法，通过学习特殊的输入词嵌入来绕过这些概念擦除方法。作者设计了针对每种擦除方法的“攻击”技术，通过这些技术可以恢复被擦除的概念，而不需要对模型权重进行任何额外的训练或微调。这种方法基于假设现有的概念擦除方法实际上执行了某种形式的输入过滤。
本文实验和性能：作者对七种最近提出的概念擦除方法进行了测试，包括Erased Stable Diffusion、Selective Amnesia、Forget-me-not、Ablating Concepts、Unified Concept Editing、Negative Prompt和Safe Latent Diffusion。实验结果表明，所有这些技术都可以被绕过。即使是经过擦除的模型，也可以通过精心设计的（软）提示生成被擦除的概念。这表明这些概念并没有从模型中完全移除，而是被重新映射到了新的嵌入。

阅读总结报告：本文对现有的文本到图像生成模型中的概念擦除方法进行了深入分析。作者发现，尽管这些方法声称能够从模型中移除敏感概念，但实际上它们可能只是在输入空间中重新映射了这些概念，而不是真正地移除。通过设计特殊的输入提示，作者成功地绕过了这些擦除方法，恢复了被擦除的概念。这一发现揭示了现有方法的脆弱性，并对未来如何构建和评估安全的生成模型提出了挑战。作者建议需要更强的评估方法来测试概念擦除方法的有效性，并呼吁开发新的安全策略来应对这一挑战。

PreviousVLM-Attack NextEfficient LLM-Jailbreaking by Introducing Visual Modality

Last updated 1 year ago