Does DETECTGPT Fully Utilize Perturbation? Bridge Selective Perturbation to Fine-tuned Contrastive L

研究背景

随着大型语言模型(LLMs)生成能力的增强,对于滥用问题的关注也在增加。这些模型能够生成与人类写作文本(HWT)难以区分的机器生成文本(MGT),这可能导致学术不端行为、垃圾邮件合成、不可信新闻等问题。因此,开发能够区分MGT和HWT的检测器变得尤为重要。

过去方案和缺点

现有的MGT检测方法主要分为两类:微调方法(fine-tuned methods)和零样本度量方法(zero-shot metric-based methods)。微调方法虽然准确度较高,但需要大量的数据标注和计算资源。而零样本度量方法虽然解释性好,但在处理黑盒生成器时泛化能力有限。此外,现有的检测方法如DetectGPT虽然引入了扰动策略来改善检测性能,但仍存在以下缺点:(i) 依赖于阈值设置,限制了其泛化能力;(ii) 未能充分利用扰动信息;(iii) 随机扰动可能引入噪声,影响性能。

本文方案和步骤

本文提出了一种新的检测器PECOLA,它通过对比学习(contrastive learning)和选择性扰动(selective perturbation)来桥接基于度量的检测器和微调检测器。PECOLA的主要步骤包括:

  1. 选择性策略扰动(Selective Strategy Perturbation):通过评估token的重要性来减少噪声,并使用特殊的mask替换重要文本中的token,同时利用语言模型填充这些mask。

  2. 基于重要性的多对对比学习(Token-Level Weighted Multi-Pairwise Contrastive Learning):对扰动后的文本进行处理,使用对比学习模型来处理这些文本,并通过赋予重要token更高的权重来重建特征。

本文创新点与贡献

PECOLA的主要创新点和贡献包括:

  • 选择性扰动:提出了一种基于token重要性的新方法,减少了噪声,并对监督和非监督方法都有益处。

  • 桥接度量和模型基检测器:使用新颖的微调对比学习模块替代了DetectGPT中的logit回归,无需设置阈值,能够处理单个输入,并在少样本设置下通过对比扰动文本和原始文本来提高泛化能力和有效性。

  • 超越现有技术:在四个公共数据集上,PECOLA在准确率上平均提高了1.20%,并且在少样本设置下超越了最新的方法。

本文实验

实验在四个公开数据集上进行,包括Grover、GPT-2、GPT-3.5和HC3。实验结果显示PECOLA在少样本学习设置下显著提高了PLMs在MGT检测中的性能。此外,还进行了消融研究和鲁棒性分析,证明了PECOLA的有效性、鲁棒性和泛化能力。

实验结论

实验结果表明,PECOLA在MGT检测任务中超越了现有的基线方法和最新技术。特别是在少样本设置下,PECOLA显示出更高的准确率和F1分数,证明了其在检测短文本方面的有效性。

全文结论

本文介绍了PECOLA,这是一种新颖的MGT检测方法,有效地结合了基于度量和微调检测器的优势。通过选择性策略扰动和基于重要性的多对对比学习方法,PECOLA在MGT检测中显著提高了性能,特别是在少样本学习设置下。此外,PECOLA在多个数据集上展现出了良好的泛化能力和鲁棒性。

阅读总结报告

本文提出了PECOLA,一种新型的机器生成文本检测方法,旨在解决现有方法在泛化能力和资源消耗方面的不足。通过创新的选择性扰动和对比学习方法,PECOLA不仅提高了检测的准确性,还增强了模型的泛化能力和鲁棒性。实验结果表明,PECOLA在多个公共数据集上均取得了优于现有技术的性能,特别是在资源受限的少样本学习场景中。这些成果为未来在其他领域(如图像和视频生成)中开发通用检测方法提供了启发,同时也为防止语言模型潜在的负面用途提供了支持。

Last updated