On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts
Last updated
Last updated
随着文本到图像模型(如Stable Diffusion)的流行,它们在生成逼真图像、促进创造力和提升视觉体验方面产生了深远影响。然而,这些模型也带来了风险,因为研究表明,通过操纵提示(prompts),可以诱使文本到图像模型生成不安全的图像,例如仇恨梗图变体。现有研究仅以被动方式展示了文本到图像模型的危害能力,而本文关注于使用针对性的良性提示主动生成不安全图像的投毒攻击。
以往的研究集中在收集或制作恶意提示,以引发文本到图像模型生成不安全图像。这些方法包括通过优化特殊字符来关联目标仇恨梗图的特征,或者通过添加额外的良性细节来稀释提示中的毒性关键词。这些被动技术虽然引起了关注,但实际影响有限,因为用户不会故意应用这些操纵提示来被动地生成不安全图像,除非他们有意为之。同时,对手需要利用这些提示生成不安全图像,并在论坛或社交网站上传播,这在现实中的效果有限,因为人类版主会进行干预。
本文提出了两种投毒攻击:基础攻击和功能保护攻击。基础攻击的目标是构建一个投毒数据集,该数据集基于目标仇恨梗图和目标提示对,然后触发不安全图像的生成。功能保护攻击旨在通过清理任何给定的非目标提示来减少副作用,同时保持攻击的隐蔽性,并确保不错的攻击性能。
本文首次研究了在提供良性提示时主动生成不安全图像的问题。
提出了两种投毒攻击,并通过多项实验设置展示了这些攻击的有效性。
首次揭示了针对文本到图像模型的投毒攻击的副作用,并从概念相似性的角度分析了其根本原因。
引入了功能保护攻击作为一种可行的缓解策略,以保持攻击的隐蔽性,同时确保不错的攻击性能。
实验使用四个代表性的仇恨梗图和多个查询提示来定性和定量评估所提出的攻击。实验结果表明,即使是在只有五个投毒样本的情况下,文本到图像模型也容易受到基础攻击的影响。然而,投毒效果可能会无意中传播到非目标提示,导致不良副作用。
实验结果强调了在现实世界场景中采用文本到图像模型的潜在风险,并呼吁未来的研究和安全措施。
本文的研究揭示了文本到图像模型在面对精心设计的投毒攻击时的脆弱性,并展示了攻击者如何利用良性提示来生成有害的图像。同时,本文提出的功能保护攻击为减少副作用提供了一种策略,这对于理解和防御这类攻击具有重要意义。
本文《On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts》深入探讨了文本到图像模型在面对投毒攻击时的安全问题。作者首先介绍了文本到图像模型的背景和它们在日常生活中的应用,随后指出了这些模型可能被滥用来生成不安全图像的风险。文章重点介绍了两种投毒攻击方法,并从定性和定量的角度对这些攻击进行了评估。实验结果显示,即使是少量的投毒样本也足以让模型生成与目标仇恨梗图高度相似的不安全图像。
文章的创新之处在于首次提出了主动生成不安全图像的概念,并分析了投毒攻击的副作用及其根本原因。此外,作者提出了一种功能保护攻击方法,旨在减少这些副作用,同时保持攻击的隐蔽性和有效性。
最后,文章通过一系列实验验证了所提出攻击方法的有效性,并讨论了可能的防御措施。这些发现对于理解和提高文本到图像模型的安全性具有重要意义,并为未来的研究和实践提供了宝贵的见解。