AART: AI-Assisted Red-Teaming with Diverse Data Generation for New LLM-powered Applications
Last updated
Last updated
大型语言模型(LLMs)在各种领域和日常任务中得到了广泛应用,但它们的潜在危害和误用仍然是一个开放的研究问题。LLMs可能会泄露敏感信息、传播误导性内容,并对特定社区造成伤害。为了在开发早期阶段评估潜在风险和危害,需要能够适应新应用环境的对抗性测试方法。这要求创建与应用场景紧密对齐的健壮评估数据集,考虑来自广泛地理区域的用户,并代表全面的安全视角。
传统的红队测试(Red teaming)依赖于人类测试者通过模拟对抗性攻击来发现系统弱点,但这通常是手动过程,由有限的众包活动执行。这些方法不易复制或适应新应用环境,缺乏多样性或完整性,因此在全面测试系统方面受到限制。此外,基于人类的红队测试可能会使人类接触到有毒和有害内容,导致人类疲劳,并增加来自历史上被边缘化社区的个体的负担。
本文提出了一种名为AART(AI-Assisted Red-Teaming)的新方法,用于自动化生成对抗性评估数据集,以测试LLM生成的安全性。AART提供了一个数据生成和增强管道,通过可重用和可定制的配方显著减少人类努力,并使对抗性测试能够更早地集成到新产品开发中。AART通过AI辅助配方来定义、范围和优先考虑应用上下文中的多样性,这有助于结构化LLM生成过程,扩大评估优先级。
提出了一种AI辅助的红队方法,用于为新应用环境生成对抗性数据集,具有灵活性,允许迭代工作流程。
展示了AART在评估一个假设的新的面向全球用户基础的文本生成产品时的有效性,其中评估优先级集中在防止模型提供有关危险和非法活动的信息。
通过定量和定性分析展示了AART生成的对抗性数据集与人类红队创建的其他应用环境的评估集以及适应的自动化红队方法的比较结果。
实验通过定量和定性分析评估了AART方法。定量分析使用了关键词匹配方法,比较了AART生成的数据集与现有数据集。定性分析对120个生成的提示进行了抽样,以评估其质量。
AART方法能够自动化对抗性数据集的生成过程,允许在短时内创建多样化的数据集,并最小化人类干预。它确保了政策概念、任务格式和地理区域的广泛覆盖,支持负责任的AI开发LLM基础应用。AART还能够成功识别出人类测试单独可能未能捕捉到的问题。
AART方法通过自动化对抗性数据集的生成,支持负责任的AI开发LLM基础应用。尽管AART框架减少了对广泛人类干预的需求,但人类专家在长期对抗性测试中仍然至关重要。未来的工作应该检查扩大自动化生成是否增加或饱和多样性和覆盖率。
本文介绍了AART方法,这是一种自动化生成对抗性评估数据集的新方法,用于测试LLMs的安全性。AART通过AI辅助配方来定义和优先考虑应用上下文中的多样性,从而生成具有高多样性和覆盖率的评估数据集。实验结果表明,AART在生成对抗性数据集方面表现出色,能够为LLMs的安全部署提供支持。尽管AART在自动化对抗性测试方面取得了进展,但仍存在局限性,如输出中的偏见模式和事实不一致性,以及在复杂社会文化数据方面可能忽视新兴攻击模式的风险。