On the Proactive Generation of Unsafe Images From Text-To-Image Models Using Benign Prompts
Last updated
Last updated
本研究聚焦于文本到图像模型(Text-to-image models),尤其是稳定扩散模型(Stable Diffusion Models, SDMs),它们通过文本提示生成逼真的图像,极大地影响了日常生活。然而,这些模型也存在风险,因为它们可能被操纵生成不安全的图像,例如带有仇恨的模因变体。以往的研究已经展示了通过操纵文本提示可以诱导模型生成不安全的图像,但这些研究仅在被动方式下展示了模型的风险。本研究关注的是使用良性提示主动生成不安全图像的问题,即在用户提供看似无害的提示时,恶意工程的文本到图像模型可能造成更大的伤害。
以往的研究主要集中在收集或编造恶意提示来诱导文本到图像模型生成不安全图像。这些方法包括从互联网上收集可能触发模型生成有害内容的真实提示,或者通过优化特殊字符来关联目标仇恨模因的特征。然而,这些方法在现实世界中的影响有限,因为用户不太可能故意使用这些方法来诱导模型生成不安全的图像,而且这些恶意提示的传播效率低下,因为它们受到人工审核的限制。
本文提出了两种投毒攻击方法:基本攻击和保用攻击。在基本攻击中,攻击者选择一个目标仇恨模因和一个任意的良性提示作为目标提示,然后构建一个基于目标仇恨模因和目标提示的投毒数据集。通过这种方式,模型在接收到特定提示时会生成与仇恨模因高度相似的不安全图像。在保用攻击中,为了减少非目标提示的副作用,提出了一种通过清理任何给定非目标提示来降低副作用的策略,同时确保攻击性能。
本文是首次研究在提供良性提示时主动生成不安全图像的问题。
提出了两种投毒攻击:基本攻击和保用攻击,通过定性和定量结果证明了SDMs对这些攻击的高度脆弱性。
首次揭示了投毒攻击对文本到图像模型的副作用,并从概念相似性的角度分析了根本原因。
进行了细粒度分析,提出了一种“快捷方式”提示提取策略,可以在较少的投毒样本下实现攻击目标。
实验使用了四个代表性的仇恨模因和多个查询提示来定性和定量评估所提出的攻击。实验结果表明,即使是五个投毒样本,基本攻击也能在某些情况下实现攻击目标。然而,基本攻击未能保留效用,表现为Fréchet Inception Distance (FID) 分数的急剧增加。保用攻击通过清理非目标提示来减少副作用,实验结果显示,清理过程可以对一些其他非目标提示产生影响。
实验结果证实了SDMs对投毒攻击的脆弱性,并且展示了基本攻击在较少的投毒样本下可以实现攻击目标。然而,基本攻击的副作用问题需要通过保用攻击来解决。此外,通过“快捷方式”提示提取策略,可以在较少的投毒样本下实现攻击目标,但这种策略牺牲了选择目标提示的灵活性。
本文的研究揭示了文本到图像模型在现实世界应用中可能带来的潜在风险,并提出了相应的攻击方法和防御策略。通过这些发现,我们强调了在这一领域进行未来研究和安全措施的重要性。
本研究针对文本到图像模型在生成不安全图像方面的潜在风险进行了深入探讨。通过提出两种投毒攻击方法,本文不仅展示了模型的脆弱性,还揭示了攻击的副作用问题,并提出了相应的解决方案。实验结果表明,即使是在用户提供良性提示的情况下,模型也可能被操纵生成有害图像,这对于模型的开发者和用户都提出了警示。此外,本文的研究还为未来在这一领域的安全措施和防御策略提供了宝贵的见解。