Unsafe Diffusion: On the Generation of Unsafe Images and Hateful Memes From Text-To-Image Models
Last updated
Last updated
本研究探讨了文本到图像模型(Text-to-Image models)如Stable Diffusion和DALL·E 2在生成视觉内容方面的革命性作用,同时关注了这些模型可能被用于生成不安全图像(如色情、暴力、仇恨等)的风险。随着这些模型的普及,社会对于潜在的滥用问题越来越担忧。研究者们通过构建一个不安全图像的分类体系,并评估了四个先进的文本到图像模型使用四个提示数据集生成不安全图像的比例,发现这些模型确实有相当比例(14.56%)生成不安全的图像,尤其是Stable Diffusion模型。
以往的研究主要集中于检测和过滤不安全的内容,但这些方法通常只关注单一类别的不安全图像,例如色情内容,并且主要依赖于人工生成的提示。此外,现有研究通常只针对单一模型(如Stable Diffusion)进行,没有全面评估不同模型和不同提示数据集的风险水平。这些方法在处理复杂和多样化的不安全内容时存在局限性,且难以适应模型的不断进化和新的滥用策略。
研究者们首先构建了一个包含五个类别(色情、暴力、令人不安、仇恨和政治)的不安全图像分类体系。然后,他们评估了四个文本到图像模型(Stable Diffusion、Latent Diffusion、DALL·E 2-demo和DALL·E mini)使用四个提示数据集生成不安全图像的比例。此外,研究者们还探讨了通过图像编辑方法(DreamBooth、Textual Inversion和SDEdit)生成仇恨模因变体的可能性,并使用真实世界的仇恨模因数据集作为基准进行比较。
构建了一个全面的不安全图像分类体系,并对其进行了数据驱动的识别。
对多个流行的文本到图像模型进行了系统的安全性评估,使用了来自不同来源的提示数据集。
首次评估了文本到图像模型在生成仇恨模因方面的潜力,并设计了系统的方法来生成和评估仇恨模因变体。
讨论了在文本到图像模型的供应链中采取的几种缓解措施,以防止不安全内容的生成。
实验包括对四个模型使用四个不同的提示数据集进行安全性评估,并训练了一个多头安全分类器来检测不安全图像。此外,还进行了生成仇恨模因变体的实验,使用真实世界的仇恨模因数据集作为基准进行比较。
实验结果表明,所有四个文本到图像模型都有可能生成不安全的图像,尤其是当使用有害提示时。Stable Diffusion模型生成不安全内容的风险最高。此外,研究还发现,通过图像编辑方法可以生成与真实世界仇恨模因变体相似的变体。
本研究揭示了文本到图像模型在生成不安全图像,特别是仇恨模因方面的重大风险。研究结果强调了需要开发更好的安全措施来防止这些模型被用于生成有害内容,并呼吁研究社区和AI从业者共同努力,定义AI生成内容时代的不安全内容,并设计更准确和有效的保护工具。
本研究深入探讨了文本到图像模型在生成不安全图像和仇恨模因方面的潜力和风险。通过构建全面的不安全图像分类体系和进行系统的安全性评估,研究揭示了这些模型在不同提示数据集下的不安全内容生成行为。研究还首次评估了通过图像编辑方法生成仇恨模因变体的可能性,并发现这些变体与真实世界的仇恨模因具有相似的特征。这些发现对于理解文本到图像模型的潜在滥用问题至关重要,并为开发有效的安全措施提供了重要的见解和建议。研究的结论强调了社区合作定义不安全内容和设计保护工具的重要性,以防止这些模型被用于有害目的。