# J-Guard: Journalism Guided Adversarially Robust Detection of AI-generated News

<figure><img src="https://1203660092-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FVIbHxVNUonwDG5X6HrVv%2Fuploads%2FmRWbWCubCvkIdqRmPTLn%2Fimage.png?alt=media&#x26;token=5dd9ab3f-6fd8-4c6d-a349-4aed78b9bb9c" alt=""><figcaption></figcaption></figure>

## 阅读总结报告

### 1. 研究背景

随着基于变换器的生成模型的进步，AI生成的文本，尤其是新闻文章，在网上迅速传播，这可能成为在线虚假信息的主要来源。虽然已有研究关注于检测AI生成的文本，但这些方法在面对简单的对抗性攻击时显得脆弱，且可能产生误报，损害新闻组织的声誉。因此，需要一种能够提高检测可靠性的框架，特别是在新闻写作领域。

### 2. 过去方案和缺点

以往的方法主要关注于一般性的AI文本检测，但这些方法在应用于AI生成新闻检测时存在两个主要问题：一是新闻写作的独特属性可能导致误报；二是现有的AI文本检测器对对抗性攻击非常脆弱。

<figure><img src="https://1203660092-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FVIbHxVNUonwDG5X6HrVv%2Fuploads%2Fn9F8kQ0AMa17hJFHhMyC%2Fimage.png?alt=media&#x26;token=33d76beb-8541-49b9-a4a9-df430882c2fc" alt=""><figcaption></figcaption></figure>

### 3. 本文方案和步骤

本文提出了一个名为J-Guard的框架，它结合了新闻学、计算机科学和传播学的专业知识。J-Guard通过以下步骤工作：

* 研究人类撰写的新闻文章的独特属性和出版过程。
* 提出一套辅助的新闻学风格线索，以指导现有的监督式AI文本检测器。
* 在实验中，使用多种AI模型生成的新闻文章来验证J-Guard的有效性。

本文提出的J-Guard框架区分AI生成的新闻与真实人类撰写的新闻，主要通过以下几个步骤和方法：

#### 1. 研究新闻写作的独特属性

研究团队首先分析了专业新闻写作的特点，包括新闻标准、特定新闻室风格指南和编辑标准。这些特点在人类记者撰写的新闻文章中普遍存在，而AI模型可能在模仿这些风格时存在语义上的差距。

#### 2. 提取新闻特征

J-Guard框架中的新闻特征提取器（Journalism Feature Extractor）负责从输入的新闻文章中提取一系列量化的特征，这些特征反映了文章与AP（Associated Press）风格指南的偏差。这些特征分为三类：

* **组织和语法标准**：量化新闻文章的句子和段落结构，如平均句子长度、引言部分的字数等。
* **标点使用**：分析新闻文章中特定标点符号的使用频率，如感叹号、井号、撇号和牛津逗号。
* **格式标准违规**：检查新闻文章中的日期、时间和数字格式是否符合AP标准。

#### 3. 构建J-Guard框架

J-Guard框架由两部分组成：

* **基础AI文本检测器**：使用预训练的变换器编码器堆栈来学习输入新闻文章的语义表示。
* **新闻指导组件**：将提取的新闻特征作为辅助线索注入到检测流程中，将基础检测器转变为专门用于检测AI生成新闻的检测器。

#### 4. 增强检测能力和对抗性鲁棒性

为了提高检测能力和对抗性鲁棒性，J-Guard通过一个称为Guidance Head的额外前馈层集合，将基础AI文本检测器的输出与新闻特征结合起来。这个Guidance Head学习了基础检测器特征向量和新闻特征之间的关系，并将它们映射到更高维的特征空间中，以避免特征被掩盖。

####

### 4. 本文创新点与贡献

* 首次研究并量化了新闻组织中潜在新闻过程中产生的风格线索，以区分AI生成的新闻。
* 提出了一个计算框架，结合这些风格线索来检测AI生成的新闻。
* 在广泛的预训练语言模型（PLMs）上进行了广泛的实验，包括ChatGPT（GPT 3.5），展示了J-Guard在检测AI生成新闻方面的有效性。
* 通过生成字符和单词级别的攻击，实证展示了所结合的风格线索提高了AI生成新闻检测的对抗性鲁棒性。

### 5. 本文实验

实验部分详细介绍了用于验证J-Guard框架的实验设置，包括数据集、基线模型、检测设置和对抗性攻击设置。实验结果表明，J-Guard在多种AI生成器上的表现优于现有技术，并且在对抗性攻击下保持了较高的鲁棒性。

### 6. 实验结论

实验结果支持了J-Guard框架的有效性。在AI生成新闻检测任务中，J-Guard在多个AI生成器上表现出色，并且在对抗性攻击下保持了较低的性能下降。这表明J-Guard能够有效地区分真实新闻和AI生成的新闻。

### 7. 全文结论

本文通过多学科团队的合作，提出了J-Guard框架，该框架能够有效地检测AI生成的新闻文章，同时对抗性攻击具有较高的鲁棒性。J-Guard的成功在于它结合了新闻学的风格线索，这些线索在新闻生产过程中是独特的，并且与AI生成的文本存在显著差异。

### 阅读总结

本文针对AI生成新闻的检测问题，提出了一个创新的框架J-Guard。该框架通过结合新闻学的风格线索，提高了AI文本检测器的准确性和对抗性鲁棒性。实验结果表明，J-Guard在多种AI模型上都表现出了优越的性能，尤其是在面对对抗性攻击时。这项工作不仅对新闻行业有重要意义，也为AI文本检测领域提供了新的研究方向。