Moderating Illicit Online Image Promotion for Unsafe User-Generated Content Games Using Large Vision
Last updated
Last updated
在线用户生成内容游戏(UGCGs)在儿童和青少年中越来越受欢迎,用于社交互动和更具创造性的在线娱乐。然而,它们带来了暴露于显式内容的增加风险,引发了对儿童和青少年网络安全的日益关注。尽管存在这些问题,但很少有研究解决社交媒体上不安全UGCG的非法图像推广问题,这可能会无意中吸引年轻用户。这一挑战源于获取UGC图像的综合训练数据的难度以及这些图像的独特性质,与传统不安全内容不同。
现有的工具,如Google Cloud Vision API、Clarifai和Amazon Rekognition,使用人工智能和机器学习(AI/ML)模型来调节有害内容。但是,这些工具在防止不安全UGC图像的非法推广方面的有效性存在问题。现有的AI/ML系统在检测用于非法在线推广UGCG的不安全图像方面效率降低。现有系统在处理UGC图像时面临两个关键问题:一是获取大量训练数据的需求,二是UGC图像输入域的显著转变。
为了解决这个问题,作者提出了UGCG-GUARD,这是一个旨在帮助社交媒体平台有效识别用于非法UGC推广的图像的系统。UGCG-GUARD利用最近引入的大型视觉-语言模型(VLMs),采用新颖的条件提示策略进行零样本领域适应,并结合思维链(CoT)推理进行上下文识别。具体步骤包括:
数据收集与注释:收集了2,924张展示用于推广UGCG的多样化色情和暴力内容的图像。
UGCG-CoT提示:开发了一种基于思维链推理的提示策略,通过条件提示和基于推理的提示来解决领域转变和上下文识别的挑战。
VLM-based检测:利用大型VLM运行准备好的UGCG-CoT提示,并解析输出以获取答案。
内容调节:根据前一阶段解析出的答案来确定帖子是否包含非法推广的不安全UGC图像,并进行相应的标记。
提供了一个新的数据集,包含2,924张由真实游戏创作者在社交媒体平台上用于不安全UGC推广的图像。
对不安全UGCG及其非法推广的新理解,发现这些推广使用了不恰当的图像,通常是从UGCG中截取的屏幕截图。
提出了一个新的用于调节非法在线推广不安全UGC图像的框架,UGGC-GUARD利用大型VLMs实现零样本适应和上下文检测。
对UGCG-GUARD进行了广泛的评估,展示了其在标记此类内容方面的最新平均准确率达到94%。
实验包括:
与现有基线检测器的比较,以评估UGCG-GUARD的有效性。
评估UGCG-GUARD处理从传统不安全图像到UGC输入域的转变的能力。
研究UGCG-GUARD的条件提示过程的有效性。
检查UGCG-GUARD的上下文识别过程的有效性。
在来自不同社交媒体平台的未标记样本上运行UGCG-GUARD。
探讨传统视觉模型在检测不安全UGC图像方面的局限性。
UGCG-GUARD在检测用于非法推广不安全UGCG的图像方面表现出色,平均准确率达到94%,远远超过了现有的基线检测器。实验还表明,UGCG-GUARD的条件提示策略非常有效,显著优于通用提示。
本研究提出了UGCG-GUARD,这是一个针对社交媒体上不安全UGCG的非法图像推广的调节系统。通过收集真实世界的数据集并利用大型VLMs和CoT推理,UGGC-GUARD能够有效地识别和标记这些图像。未来的工作将扩展该框架,以调节游戏内的不安全内容,并适应虚拟现实(VR)领域。
本论文针对在线UGCGs中存在的非法图像推广问题,提出了一个创新的解决方案UGCG-GUARD。通过深入分析和收集相关数据,作者们揭示了现有内容调节工具在处理UGC图像时的不足,并开发了一种结合条件提示和思维链推理的系统,以提高检测不安全UGC图像的准确性。实验结果表明,UGCG-GUARD在实际场景中表现出色,准确率高达94%,远超现有技术。这项工作不仅为保护儿童和青少年网络安全提供了有力工具,也为未来在更广泛领域的内容调节研究奠定了基础。