OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with Adversarially Generated Examp
Last updated
Last updated
大型语言模型(LLMs)在文本生成方面已经达到了人类水平的流畅度,这使得区分人类写作和LLM生成的文本变得困难。这种能力带来了LLM被滥用的风险,并要求开发检测器来识别LLM生成的文本。然而,现有的检测器在面对攻击时缺乏鲁棒性,例如,通过简单的改写LLM生成的文本就能降低检测准确性。此外,恶意用户可能会尝试根据检测结果故意规避检测器,但这一点在以往的研究中并未被考虑。
以往的研究提出了多种检测LLM生成文本的方法,包括水印算法、统计异常检测方法和监督分类器。这些方法在面对未经改写的LLM生成文本时表现尚可,但在面对改写攻击时性能显著下降。例如,改写攻击可以使现有检测器的准确性大幅降低。此外,现有的检测器通常没有考虑到恶意用户可能会根据检测结果设计特定文本以规避检测。
本文提出了一个名为OUTFOX的框架,旨在通过允许检测器和攻击者相互考虑对方的输出来提高LLM生成文本检测器的鲁棒性。在该框架中,攻击者使用检测器的预测标签作为上下文学习的例子,以生成更难以检测的文本,而检测器则使用这些对抗生成的文本作为例子,以学习如何检测来自强大攻击者的文本。
OUTFOX框架允许检测器和攻击者通过上下文学习相互学习,提高了检测器对攻击的鲁棒性。
实验结果表明,OUTFOX检测器在攻击者生成的文本上的检测性能提高了41.3点F1分数。
OUTFOX检测器在非攻击文本上的检测性能达到了96.9点F1分数,超过了现有检测器。
OUTFOX攻击者能够大幅降低检测器的性能,最高降低了57.0点F1分数,比基线的改写方法更有效地规避检测。
实验在学生论文领域进行,创建了一个包含15,400个三元组(论文问题陈述、学生写作的论文和LLM生成的论文)的数据集。实验结果表明,OUTFOX检测器在攻击者生成的文本上的检测性能显著提高,并且在非攻击文本上的检测性能也保持了高水平。
OUTFOX检测器在考虑攻击的情况下,对攻击者生成的文本具有很高的检测性能,并且在非攻击文本上的性能也几乎没有负面影响。此外,OUTFOX攻击者能够比以往的改写攻击方法更有效地降低检测器的性能。
OUTFOX框架通过允许检测器和攻击者相互学习,提高了检测器对攻击的鲁棒性,并在学生论文领域展示了其有效性。未来的工作将把该框架应用于其他领域,如假新闻生成和学术论文写作。
本文提出了OUTFOX框架,这是一个创新的LLM生成文本检测方法,它通过让检测器和攻击者相互学习来提高检测的鲁棒性。实验结果表明,OUTFOX在提高检测性能方面取得了显著成效,尤其是在面对攻击者生成的文本时。此外,OUTFOX检测器在非攻击文本上的检测性能也保持了高水平,这表明在考虑攻击的情况下,检测器的性能并未受到负面影响。OUTFOX攻击者的设计使其能够有效地规避现有检测器,这为未来在更广泛领域的应用提供了可能性。