SAFEGEN: Mitigating Unsafe Content Generation in Text-to-Image Models

1. 研究背景

近年来,文本到图像(Text-to-Image, T2I)模型,如Stable Diffusion,已展现出从文本描述生成高质量图像的显著性能。然而,这些模型可能被诱导生成不安全的内容,特别是涉及性场景的成人内容(Not-Safe-For-Work, NSFW)。现有的对策主要集中在过滤不当的输入输出或抑制不当的文本嵌入,这些方法可以阻止明显的NSFW相关内容,但可能仍容易受到对抗性提示的影响——这些输入看起来无害,但意图不良。

2. 过去方案和缺点

现有的方法主要通过外部或内部防御来防止不安全的图像生成:

  • 外部防御:使用即插即用的安全过滤器检测不当的文本输入或视觉输出。

  • 内部防御:修改T2I模型本身,这些方法依赖于文本,旨在指导T2I模型中性和抑制与性相关词汇。

然而,现有方法存在局限性:

  • 外部安全过滤器:容易被移除,且在开源模型中无效。

  • 内部方法:依赖于预定义的NSFW概念,难以应对看似无害但含有性暗示的短语。

3. 本文方案和步骤

本文提出了SAFEGEN,一个文本不可知的框架,通过调节仅视觉的自注意力层来消除T2I模型中的不安全视觉表示,从而抵抗对抗性提示。具体步骤包括:

  1. 分析对抗性提示的风险:揭示现有对策在过滤对抗性提示和不安全图像方面的不足。

  2. 设计文本不可知的模型编辑技术:通过少量图像样本修改自注意力层,去除T2I模型创建显性图像的能力。

  3. 构建评估基准:包含对抗性和良性提示样本,验证SAFEGEN方法的有效性。

SAFEGEN方法详解

SAFEGEN 是一种旨在减轻文本到图像(T2I)模型生成不安全内容(尤其是性暗示内容)的框架。以下是SAFEGEN方法的详细说明:

核心思想:

SAFEGEN 的关键思想是在不考虑文本输入的情况下,从模型中消除不安全的视觉表示。这样,即使面对对抗性提示,T2I模型也能从内部阻止生成不安全的视觉内容。

方法步骤:

  1. 分析对抗性提示的风险

    • 通过理论和实验分析揭示现有对策在过滤对抗性提示和不安全图像方面的不足。

  2. 设计文本不可知的模型编辑技术

    • SAFEGEN 专注于修改T2I模型中的仅视觉自注意力层,以去除生成显性图像的能力。

    • 通过少量图像样本,调整自注意力层,使得模型无法生成显性内容。

  3. 构建评估基准

    • 创建包含对抗性和良性提示样本的基准,用于评估T2I模型的表现。

  4. 系统整合

    • SAFEGEN 可以与现有的文本依赖性对策(如SLD)整合,以提供更强的保护。

技术细节:

  • 数据准备

    • 使用马赛克神经网络自动为一批色情图像打上厚马赛克,生成马赛克图像。

    • 随机采样日常良性照片作为良性图像。

  • 自注意力层调整

    • 使用**<裸体,审查,良性>**图像三元组来调整自注意力层的参数。

    • 通过优化过程,使自注意力层能够逐步去除显性内容。

  • 损失函数

    • 设计了两个损失函数项:Lm (马赛克损失)Lp (保留损失)

    • Lm 鼓励自注意力层去除显性表示,将其投影到覆盖厚马赛克的潜在表示。

    • Lp 强制自注意力层保持良性图像表示的质量和避免参数偏移。

  • 优化

    • 使用AdamW优化器联合优化两个目标。

创新点:

  • SAFEGEN 是第一个尝试为T2I模型设计文本不可知治理技术的框架。

  • 它通过直接在模型内部去除显性视觉表示,而不是依赖外部过滤器或文本依赖的内部方法,来实现对不安全内容的缓解。

贡献:

  • 提供了一个理论分析,揭示了对抗性提示的风险。

  • 开发了一种新的文本不可知的模型治理技术。

  • 构建了一个全面的基准,用于评估T2I模型在对抗性和良性提示下的表现。

SAFEGEN 的提出,为防止T2I模型生成不安全内容提供了一种有效的解决方案,并通过实验验证了其在不同数据集上的有效性和优越性。

4. 本文创新点与贡献

  • 创新点

    • 提出文本不可知的框架,不受文本输入影响,直接从模型内部消除不安全的视觉表示。

    • 通过调整自注意力层,而不是外部过滤器或文本依赖的内部方法,实现对不安全内容的缓解。

  • 贡献

    • 开展对抗性提示的理论分析,为社区提供警示。

    • 设计了首个文本不可知的T2I模型治理技术。

    • 构建了全面的基准,用于评估T2I模型在对抗性和良性提示下的表现。

5. 本文实验

  • 实验设置:使用Python 3.8和Pytorch 1.12,在Ubuntu 22.04服务器上进行,使用A100-40GB GPU。

  • 基线比较:与八种最新反NSFW对策的基线方法进行比较。

  • 评估指标:使用NSFW移除率(NRR)、CLIP得分、LPIPS得分和FID得分等指标。

  • 数据集:包括I2P、SneakyPrompt、NSFW-56k和COCO-25k等数据集。

6. 实验结论

  • SAFEGEN在缓解不安全内容生成方面表现优异,实现了99.1%的性内容移除性能。

  • 在保持良性图像高保真度生成方面,SAFEGEN也展现了其有效性。

  • SAFEGEN与现有技术相结合时,进一步提高了其效果。

7. 全文结论

本文深入探讨了T2I模型在生成显性图像方面的滥用问题,并提出了SAFEGEN这一新颖框架。SAFEGEN通过调节仅视觉的自注意力层,有效地去除了T2I模型中的显性视觉表示,同时保留了生成高保真良性内容的能力。通过广泛的实验验证了SAFEGEN设计的有效性。

阅读总结

这篇论文针对当前文本到图像模型可能被滥用生成不安全内容的问题,提出了一个创新的解决方案SAFEGEN。SAFEGEN通过调整模型的自注意力层,以一种与文本输入无关的方式有效阻止了不安全内容的生成,同时保持了生成高质量良性图像的能力。论文通过详尽的实验验证了SAFEGEN的有效性,并与现有的多种方法进行了比较,证明了其在防止不安全内容生成方面的优越性。此外,作者还构建了一个对抗性提示的基准,并开源了SAFEGEN的实现,为负责任的AI研究做出了贡献。

Last updated