Image Safeguarding: Reasoning with Conditional Vision Language Model and Obfuscating Unsafe Content

研究背景：社交媒体平台被恶意行为者越来越多地用于分享不安全内容，如描绘性行为、网络欺凌和自残的图像。因此，主要平台使用人工智能（AI）和人工审核来模糊这些图像，以提高用户安全性。模糊不安全图像的过程中，需要提供准确的模糊理由，并且敏感区域应尽可能少地被模糊，同时保留安全区域。
过去方案和缺点：现有的视觉推理方法在处理不安全图像时存在严重限制，因为它们无法提供基于特定于这些图像的属性的理由，例如网络欺凌图像中的粗鲁手势或性暗示图像中的敏感身体部位。此外，当前的分割技术无法最小化识别区域，从而妨碍了需要完整安全区域详细信息的调查。
本文方案和步骤：本文提出了一种解决方案，首先通过设计一个视觉推理模型（VLM），该模型基于预训练的不安全图像分类器，提供基于不安全图像属性的准确理由。然后，提出了一种反事实解释算法，通过最小化识别和模糊不安全区域，以安全地查看图像。该算法首先利用不安全图像分类器的归因矩阵来指导更优的子区域分割，然后通过信息贪婪搜索确定修改分类器输出所需的最小子区域数量。

本文实验和性能：在社交网络上未策划的数据上进行了广泛的实验，强调了所提出方法的有效性。实验结果表明，该方法能够以93.9%的准确率对社交媒体上的三种不安全类别图像进行分类，并且以81.8%的准确率最小化分割不安全区域。

阅读总结报告：本文针对社交媒体平台上不安全图像的审核过程中的一个关键但被忽视的问题提出了解决方案。研究的主要目标是首先识别并最小化模糊不安全图像中的敏感区域，同时保持安全区域不变以帮助调查，然后提供基于不安全图像属性的准确理由。通过开发ConditionalVLM（条件视觉语言模型）和一种新的不安全图像内容模糊算法，本文在实验中展示了其在描述不安全图像和生成反事实解释方面的优越性能。这些工作对于社交媒体内容审核员的安全、未成年人或对此类内容敏感的用户以及需要调查此类图像的执法人员具有深远的影响。

PreviousCleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive Learning NextTowards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion Models

Last updated 1 year ago