Moderating Illicit Online Image Promotion for Unsafe User-Generated Content Games Using Large Vision
Last updated
Last updated
随着在线用户生成内容游戏(UGCGs)的流行,尤其是在儿童和青少年中的广泛使用,这些平台成为了社交互动和创造性娱乐的重要场所。然而,这些游戏也增加了儿童和青少年接触到显性内容的风险,引发了对其在线安全的担忧。尽管存在这些担忧,但目前对于社交媒体上非法推广不安全UGCGs的图像问题的研究还很少,这些推广可能会无意中吸引年轻用户。这个问题的挑战在于获取UGCG图像的全面训练数据的困难,以及这些图像与传统不安全内容的独特性质。
以往的解决方案主要依赖于人工智能和机器学习(AI/ML)模型来审核有害内容。这些系统在识别传统不安全图像(如现实中的显性内容和暴力图像)方面表现出色,但在检测用于UGCGs非法推广的图像方面效率低下。这主要是因为这些系统需要大量的训练数据,而且UGCG图像的性质与现实世界中的图像有很大不同,它们通常是由虚拟角色和抽象几何形状混合构成的,这使得分类变得更加复杂。
本文提出了一个名为UGCG-GUARD的创新系统,旨在帮助社交媒体平台有效识别用于非法推广UGCG的图像。UGCG-GUARD利用最近引入的大型视觉-语言模型(VLMs),采用新颖的条件提示策略进行零样本领域适应,以及链式思维(CoT)推理进行上下文识别。具体步骤包括:
收集和注释UGCG图像数据集。
利用CoT推理机制,设计UGCG-COT提示策略,以适应领域特定和上下文敏感的图像内容。
使用大型VLM处理UGCG-COT提示,以识别图像中的不安全内容。
根据VLM的输出,对包含非法推广不安全UGCG的图像进行标记和内容审核。
提供了一个全新的数据集,包含2924张由游戏创作者用于推广UGCG的显性内容和暴力内容的图像。
对UGCG非法推广的新理解,以及对自动标记此类推广的迫切需求。
提出了UGCG-GUARD框架,采用条件提示策略和CoT推理方法,有效利用大型VLM进行零样本适应和上下文检测。
在真实世界场景中检测用于非法推广此类游戏的图像,准确率达到94%。
实验包括:
收集和注释UGCG图像数据集。
使用UGCG-GUARD对这些图像进行检测,并与现有的不安全图像检测系统进行比较。
评估UGCG-GUARD在标记不安全UGCG推广图像方面的性能。
实验结果表明,UGCG-GUARD在标记不安全UGCG推广图像方面表现出色,平均准确率达到94%,超过了现有基线检测器的23.7%到77.7%。
本文通过UGCG-GUARD框架,展示了一种有效的方法来识别和标记用于非法推广不安全UGCG的图像。该系统利用大型VLM和CoT推理,能够在没有大量训练数据的情况下,有效地适应和检测UGCG图像中的不安全内容。这为在线内容审核提供了一种新的有效方法,尤其对于保护儿童和青少年免受不适当内容影响具有重要意义。
注:
在本研究中,使用大型视觉-语言模型(VLM)处理UGCG-COT(User-Generated Content Games - Chain-of-Thought)提示是为了识别和标记图像中的不安全内容。这个过程涉及以下几个关键步骤:
条件提示(Conditional Prompting):
条件提示用于帮助VLM理解图像的特定上下文,即这些图像是来自角色扮演游戏的生成图像,而不是现实世界的照片。
通过这种条件提示,模型能够调整其注意力特征,使其更适应UGCG图像的特点,从而提高对这些图像的理解和分析能力。
链式思维推理(Chain-of-Thought Reasoning):
链式思维推理是一种让AI模型通过一系列逻辑步骤来得出结论或答案的方法,类似于人类的自然思考过程。
在UGCG-COT提示中,这种方法被用来引导VLM进行复杂的决策制定,以便识别图像中的不安全内容,如色情、暴力等。
VLM的训练和能力:
所选的VLM应该在多种视觉-语言任务上接受过广泛的训练,这使得它们能够理解不同输入域之间的共性,并赋予它们领域适应能力。
VLM还必须具备强大的推理能力,这是由于UGCG图像的复杂性和其中嵌入的微妙的、可能不安全的内容需要上下文检测。
处理UGCG-COT提示:
VLM结合UGCG-COT提示处理图像,首先通过条件提示来适应从现实世界到模拟游戏环境的领域变化。
然后,VLM被引导去识别图像中的人类角色或头像,并根据一系列问题来检测是否存在不安全内容,如裸露、性行为、武器展示、暴力活动等。
通过这些结构化的问题和答案,VLM能够逐步构建对图像内容的理解,并最终做出是否安全的决策。
决策和内容审核:
最后,根据VLM的输出,系统将决定图像是否包含不安全内容,并采取相应的内容审核措施,如标记图像或发出警告。
通过这种方法,UGCG-GUARD能够有效地识别和处理UGCGs中的不安全图像,即使在没有大量标记数据的情况下,也能够适应和检测UGCG图像中的复杂内容。这为在线社交平台提供了一种新的、有效的内容审核工具,以保护用户,特别是未成年用户,免受不适当内容的影响。
本研究针对UGCGs中的非法图像推广问题,提出了UGCG-GUARD系统,该系统能够有效地识别和标记用于非法推广不安全UGCG的图像。通过利用大型视觉-语言模型和链式思维推理,UGCG-GUARD能够在没有大量训练数据的情况下进行有效的领域适应和上下文识别。实验结果证明了该系统在真实世界场景中的高效性和准确性,为社交媒体平台提供了一种新的工具,以更好地保护年轻用户免受不适当内容的影响。这项工作不仅为UGCGs的安全问题提供了新的解决方案,也为未来相关领域的研究提供了新的思路和方法。