Moderating Illicit Online Image Promotion for Unsafe User-Generated Content Games Using Large Vision

1. 研究背景

在线用户生成内容游戏(UGCGs)在儿童和青少年中越来越受欢迎,它们提供了社交互动和更具创造性的在线娱乐。然而,这些平台也增加了接触不适宜内容的风险,引发了对儿童和青少年在线安全日益增长的担忧。尽管存在这些担忧,但很少有研究关注社交媒体上不安全UGCGs的非法图像推广问题,这可能会无意中吸引年轻用户。这个问题的挑战在于获取UGCG图像的综合训练数据的难度,以及这些图像的独特性,它们与传统的不安全内容不同。

2. 过去方案和缺点

现有的工具,如Google Cloud Vision API、Clarifai和Amazon Rekognition,使用人工智能和机器学习(AI/ML)模型来缓和有害内容。但是,这些工具在防止不安全UGCG图像的非法推广方面的有效性存在疑问。基于AI/ML的系统在识别传统不安全图像方面表现出相当的效力,但在检测用于在线推广UGCGs的不安全图像时,这些系统的效率降低。

3. 本文方案和步骤

本文提出了一个名为UGCG-GUARD的系统,旨在帮助社交媒体平台有效识别用于非法推广UGCG的图像。该系统利用最近引入的大规模视觉-语言模型(VLMs),采用零样本领域适应的新颖条件提示策略,以及用于上下文识别的链式思考(CoT)推理。系统的工作流程如下:

  • 数据收集与注释:收集和注释用于UGCG推广的图像。

  • UGCG-CoT提示:开发基于CoT推理的提示策略,以适应零样本领域。

  • VLM基于检测:利用大型VLM运行提示,并解析模型的输出。

  • 内容缓和:根据VLM的输出决定帖子是否包含非法推广图像,并进行相应的标记。

4. 本文创新点与贡献

  • 提供了一个包含2,924张由真实游戏创作者在社交媒体平台上用于不安全UGCG推广的图像的新数据集。

  • 对不安全UGCG及其非法推广的新理解,发现大多数推广图像是直接从UGCG中截取的屏幕截图。

  • 提出了一个新的框架UGCG-GUARD,用于缓和基于图像的UGCG非法在线推广。

  • 对UGCG-GUARD进行了广泛的评估,展示了其在检测此类内容方面的最新平均准确率达到94%。

5. 本文实验

作者进行了多项实验来评估UGCG-GUARD的有效性:

  • 与现有基线检测器的比较。

  • 评估UGCG-GUARD在传统不安全图像到UGCG输入领域的转变中的性能。

  • 检查UGCG-GUARD的条件提示的有效性。

  • 评估UGCG-GUARD的上下文识别过程的有效性。

  • 在来自不同社交媒体平台的未标记样本上运行UGCG-GUARD。

  • 研究传统视觉模型在检测不安全UGCG图像方面的局限性。

6. 实验结论

实验结果表明,UGCG-GUARD在识别用于非法推广不安全UGCG的图像方面具有出色的性能,平均准确率达到94%,超过了现有的基线检测器。此外,UGCG-GUARD在“现实世界”样本上的表现也证明了其在实际部署中的潜力。

7. 全文结论

本文提出了UGCG-GUARD,一个用于检测和缓和不安全UGCG的非法在线推广的框架。通过一系列实验,证明了UGCG-GUARD在识别和缓和这些图像方面的有效性。未来的工作将扩展该框架,以适应缓和游戏中的不安全内容,并探索将工作扩展到虚拟现实(VR)领域的可能性。

阅读总结

本文针对在线用户生成内容游戏(UGCGs)的非法推广问题,提出了一个创新的系统UGCG-GUARD。通过收集和分析数据集,作者发现现有的不安全图像检测系统在处理UGCG图像时存在局限性。为此,他们设计了一个新的基于大规模视觉-语言模型的系统,该系统采用条件提示和链式思考推理策略,以零样本领域适应的方式有效地识别和缓和不安全UGCG图像。通过广泛的实验评估,UGCG-GUARD显示出高准确率和召回率,证明了其在现实世界部署中的潜力。作者建议未来的工作可以扩展到其他UGCG平台和VR领域,以提供更全面的安全保护。

Last updated