Hidding the Ghostwriters: An Adversarial Evaluation of AI-Generated Student Essay Detection

阅读总结报告

随着大型语言模型（LLMs）在文本生成任务中展现出的卓越能力，人们对于其在教育领域应用的潜在风险越来越关注。这些风险包括抄袭、假新闻传播以及教育练习中的问题。尽管已经提出了一些检测器来识别AI生成内容（AIGC），但它们在对抗性干扰下的有效性，特别是在学生论文写作的背景下，尚未得到充分探索。

现有的AIGC检测方法主要集中在直接检测方法上，对于对抗性措施的影响研究有限。特别是在学生论文写作的背景下，现有研究未能充分考虑生成文本的质量和潜在的对抗性措施。

为了填补这一空白，研究者构建了AIG-ASAP数据集，这是一个基于ASAP数据集的AI生成学生论文数据集。研究者采用了一系列文本扰动方法，旨在生成高质量的论文同时规避检测。这些方法包括文章改写、单词替换和句子替换，以在不同粒度上改变原始生成模型的输出分布。

实验在AIG-ASAP数据集上进行，使用了多种开源或商业LLMs进行论文生成和扰动。评估了ArguGPT、CheckGPT、RoBERTa-QA和RoBERTa-Single等检测器的性能。实验结果表明，现有的检测器可以通过简单的自动对抗性攻击轻易规避。

实验结果揭示了现有AIGC检测器在面对经过扰动的AI生成论文时的检测性能显著下降。特别是单词替换和句子替换扰动方法，能够在保持论文质量的同时显著降低检测准确率。

研究表明，现有的AIGC检测方法在面对经过精心设计的对抗性扰动时存在明显漏洞。这强调了开发更准确、更健壮的检测方法的重要性，以应对AI生成学生论文带来的独特挑战。

本文通过构建AIG-ASAP数据集并提出新的文本扰动方法，对现有AIGC检测器在教育领域的有效性进行了深入评估。实验结果表明，通过对抗性攻击，可以显著降低检测器的准确性，这为未来研究提供了新的方向，即开发能够抵御复杂对抗性攻击的AIGC检测方法。

Last updated 1 year ago