J-Guard: Journalism Guided Adversarially Robust Detection of AI-generated News
Last updated
Last updated
随着基于变换器的生成模型的进步,AI生成的文本,尤其是新闻文章,在网上迅速传播,这可能成为在线虚假信息的主要来源。虽然已有研究关注于检测AI生成的文本,但这些方法在面对简单的对抗性攻击时显得脆弱,且可能产生误报,损害新闻组织的声誉。因此,需要一种能够提高检测可靠性的框架,特别是在新闻写作领域。
以往的方法主要关注于一般性的AI文本检测,但这些方法在应用于AI生成新闻检测时存在两个主要问题:一是新闻写作的独特属性可能导致误报;二是现有的AI文本检测器对对抗性攻击非常脆弱。
本文提出了一个名为J-Guard的框架,它结合了新闻学、计算机科学和传播学的专业知识。J-Guard通过以下步骤工作:
研究人类撰写的新闻文章的独特属性和出版过程。
提出一套辅助的新闻学风格线索,以指导现有的监督式AI文本检测器。
在实验中,使用多种AI模型生成的新闻文章来验证J-Guard的有效性。
本文提出的J-Guard框架区分AI生成的新闻与真实人类撰写的新闻,主要通过以下几个步骤和方法:
研究团队首先分析了专业新闻写作的特点,包括新闻标准、特定新闻室风格指南和编辑标准。这些特点在人类记者撰写的新闻文章中普遍存在,而AI模型可能在模仿这些风格时存在语义上的差距。
J-Guard框架中的新闻特征提取器(Journalism Feature Extractor)负责从输入的新闻文章中提取一系列量化的特征,这些特征反映了文章与AP(Associated Press)风格指南的偏差。这些特征分为三类:
组织和语法标准:量化新闻文章的句子和段落结构,如平均句子长度、引言部分的字数等。
标点使用:分析新闻文章中特定标点符号的使用频率,如感叹号、井号、撇号和牛津逗号。
格式标准违规:检查新闻文章中的日期、时间和数字格式是否符合AP标准。
J-Guard框架由两部分组成:
基础AI文本检测器:使用预训练的变换器编码器堆栈来学习输入新闻文章的语义表示。
新闻指导组件:将提取的新闻特征作为辅助线索注入到检测流程中,将基础检测器转变为专门用于检测AI生成新闻的检测器。
为了提高检测能力和对抗性鲁棒性,J-Guard通过一个称为Guidance Head的额外前馈层集合,将基础AI文本检测器的输出与新闻特征结合起来。这个Guidance Head学习了基础检测器特征向量和新闻特征之间的关系,并将它们映射到更高维的特征空间中,以避免特征被掩盖。
首次研究并量化了新闻组织中潜在新闻过程中产生的风格线索,以区分AI生成的新闻。
提出了一个计算框架,结合这些风格线索来检测AI生成的新闻。
在广泛的预训练语言模型(PLMs)上进行了广泛的实验,包括ChatGPT(GPT 3.5),展示了J-Guard在检测AI生成新闻方面的有效性。
通过生成字符和单词级别的攻击,实证展示了所结合的风格线索提高了AI生成新闻检测的对抗性鲁棒性。
实验部分详细介绍了用于验证J-Guard框架的实验设置,包括数据集、基线模型、检测设置和对抗性攻击设置。实验结果表明,J-Guard在多种AI生成器上的表现优于现有技术,并且在对抗性攻击下保持了较高的鲁棒性。
实验结果支持了J-Guard框架的有效性。在AI生成新闻检测任务中,J-Guard在多个AI生成器上表现出色,并且在对抗性攻击下保持了较低的性能下降。这表明J-Guard能够有效地区分真实新闻和AI生成的新闻。
本文通过多学科团队的合作,提出了J-Guard框架,该框架能够有效地检测AI生成的新闻文章,同时对抗性攻击具有较高的鲁棒性。J-Guard的成功在于它结合了新闻学的风格线索,这些线索在新闻生产过程中是独特的,并且与AI生成的文本存在显著差异。
本文针对AI生成新闻的检测问题,提出了一个创新的框架J-Guard。该框架通过结合新闻学的风格线索,提高了AI文本检测器的准确性和对抗性鲁棒性。实验结果表明,J-Guard在多种AI模型上都表现出了优越的性能,尤其是在面对对抗性攻击时。这项工作不仅对新闻行业有重要意义,也为AI文本检测领域提供了新的研究方向。