# INFERRING OFFENSIVENESS IN IMAGES FROM NATURAL LANGUAGE SUPERVISION

<figure><img src="https://1203660092-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FVIbHxVNUonwDG5X6HrVv%2Fuploads%2FHkw8yYxaMDAqLdpEKKfe%2Fimage.png?alt=media&#x26;token=4663f1bf-bf86-4a60-bf84-5e9e84efb2ec" alt=""><figcaption></figcaption></figure>

## 研究背景

随着深度学习模型在多个领域的显著进步，特别是在自然语言处理（NLP）和计算机视觉（CV）任务中，预训练模型的使用已成为标准实践。然而，这些模型通常基于从互联网自动抓取的大规模数据集进行训练，这些数据集可能包含贬义术语、冒犯性图像，并且可能对特定类别的表示不足。这导致了模型可能编码了刻板印象和对某些群体的负面情感。因此，有必要仔细记录和策划数据集内容，但这个过程繁琐且容易出错。

<figure><img src="https://1203660092-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FVIbHxVNUonwDG5X6HrVv%2Fuploads%2FRgE0JyqBSdkisa9xKL2e%2Fimage.png?alt=media&#x26;token=39ee6d94-cf57-4bd7-9963-9932d6a6ce6a" alt=""><figcaption></figcaption></figure>

## 过去方案和缺点

以往的方法依赖于人工审核和标注，这种方法不仅耗时，而且容易出错，难以扩展到当前的数据集规模。此外，即使使用了自动化工具，如人脸识别和色情内容分类器，这些方法也未能全面识别图像中的冒犯性内容。

## 本文方案和步骤

本文提出了一种利用预训练的Transformer模型（特别是CLIP模型）来自动策划大规模视觉数据集的方法。研究者首先定义了冒犯性图像的概念，并使用Socio-Moral Image Database (SMID) 数据集作为冒犯性图像内容的样本。然后，通过自然语言提示（prompts）来指导模型，使其能够推断图像的冒犯性。研究者还展示了如何通过软提示调整（soft-prompt tuning）来优化模型的提示，以提高识别冒犯性图像的准确性。

## 本文创新点与贡献

本文的主要创新点在于利用预训练的CLIP模型隐含的知识来推断图像的冒犯性，而不需要额外的标注数据。这种方法不仅能够识别已知的隐私侵犯和色情内容，还能识别其他不适当和潜在冒犯性的内容。此外，研究者提供了一种自动化的数据集策划方法，该方法可以扩展到任何其他视觉数据集。

## 本文实验

实验部分，研究者在ImageNet-ILSVRC-2012数据集上展示了他们的方法。通过CLIP模型和SMID数据集，他们能够自动识别可能冒犯性的图像，包括武器、死亡动物、冒犯性符号和文本、以及涉及人类和动物的冒犯性行为。

利用预训练的CLIP模型隐含的知识来推断图像的冒犯性涉及以下几个关键步骤：

1. **理解CLIP模型**： CLIP（Contrastive Language-Image Pre-trained model）是一个多模态模型，它通过对比学习的方式同时训练图像编码器和文本编码器。在训练过程中，CLIP学习了大量的图像-文本对，使得模型能够在图像和文本之间建立关联。
2. **定义冒犯性**： 研究者首先需要定义什么是冒犯性图像。在这项工作中，冒犯性被定义为违反法律、法规、行为准则或可接受使用政策的材料，或者是具有诽谤性、虚假、不准确、滥用、不雅、淫秽或威胁性的内容。
3. **使用Socio-Moral Image Database (SMID)**： 为了训练模型识别冒犯性图像，研究者使用了SMID数据集，这是一个包含道德标注的图像数据库。SMID中的图像被标注为道德上好或坏的内容，这些标注可以帮助模型学习区分道德上可接受和不可接受的图像。
4. **自然语言提示**： 研究者使用自然语言提示来指导CLIP模型。这些提示是关于图像内容的描述，例如“这张图片显示了<标签>”。通过这种方式，模型可以在没有直接训练的情况下（零样本学习）对图像进行分类。
5. **零样本学习**： CLIP模型的自然语言监督允许研究者在不训练模型的情况下（零样本学习）对模型进行查询。这意味着模型可以利用其在预训练阶段学到的知识来推断图像的冒犯性。
6. **软提示调整（Soft-Prompt Tuning）**： 为了进一步提高模型的性能，研究者采用了软提示调整技术。这是一种优化过程，通过梯度下降来找到最佳的文本嵌入（即提示），以便更好地区分冒犯性和非冒犯性图像。这个过程不更新模型的参数，而是调整提示本身。
7. **模型评估**： 通过在SMID数据集上进行实验，研究者评估了CLIP模型的性能。他们发现，即使是在只有少量训练数据的情况下，CLIP模型也能够达到很高的准确率，这表明模型在预训练阶段已经学习到了关于图像冒犯性的隐含知识。
8. **应用到大型数据集**： 研究者将这种方法应用于ImageNet-ILSVRC-2012数据集，这是一个流行的计算机视觉基准数据集。他们展示了CLIP模型能够自动识别可能冒犯性的图像，包括武器、死亡动物、冒犯性符号和行为等。

通过这些步骤，研究者展示了如何利用预训练的CLIP模型来自动化地识别和策划大规模图像数据集中的冒犯性内容。这种方法为数据集的伦理审核和内容管理提供了一种新的工具。

## 实验结论

实验结果表明，预训练的CLIP模型能够有效地识别图像中的冒犯性内容，即使在只有少量训练数据的情况下。这证明了大规模预训练模型在自动数据集策划过程中的潜力。

## 全文结论

本文提出了一种新的自动化数据集策划方法，该方法利用预训练模型的隐含知识来识别图像中的冒犯性内容。这种方法不仅提高了数据集策划的效率，还减少了人为错误的可能性。研究者建议在人机交互的环境中应用这种方法，以确保数据集的质量和伦理性。

## 阅读总结报告

本研究针对当前深度学习模型在处理大规模图像数据集时可能遇到的伦理问题，提出了一种基于预训练Transformer模型（CLIP）的自动化图像冒犯性识别方法。通过自然语言提示和软提示调整，CLIP模型能够隐式地学习并识别图像中的冒犯性内容。这种方法在ImageNet-ILSVRC-2012数据集上的实验结果表明，它能够有效地识别出之前未被识别的冒犯性图像，为大规模数据集的自动化策划提供了一种可靠的解决方案。研究者强调，尽管这种方法在技术上取得了进展，但在实际应用中应结合人工审核，以确保模型的决策符合伦理标准。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://elwood.gitbook.io/foundation-model-sec/others/inferring-offensiveness-in-images-from-natural-language-supervision.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
