DPP-Based Adversarial Prompt Searching for Lanugage Models
Last updated
Last updated
本研究的背景是关于预训练语言模型(PLMs)在生成文本时可能产生无意义和冒犯性内容的问题。这些模型虽然在很多领域取得了显著进展,但它们在生成有毒语言和泄露私人信息方面的表现仍有待提高。为了确保PLMs的安全部署,研究者需要在模型投入使用前发现并修改其潜在的有害输出。
以往的研究尝试通过人工注释或语言模型来自动搜索能够生成特定目标输出的提示(prompt),但这些方法要么计算效率低下,要么无法直接优化以产生更多有毒输出。此外,这些方法往往难以理解,并且可能因为直接优化生成目标输出的概率而产生不自然的提示。
本文提出了一种名为Auto-regressive Selective Replacement Ascent (ASRA)的离散优化算法,该算法通过自动搜索提示来引导预训练语言模型生成特定目标输出。ASRA算法包括三个主要步骤:
近似(Approximation):计算词汇表中所有可行token的近似优化目标值。
细化(Refinement):基于近似值进行初步筛选,并准确计算每个候选提示的优化目标。
选择(Selection):使用确定性点过程(DPP)模型来选择最终的提示子集,同时考虑质量和多样性。
ASRA算法:提出了一种新的算法,相较于现有算法,在引发有毒输出方面具有更高的成功率。
平衡效率和相似性:通过详细的消融研究和案例研究,展示了在搜索对抗性提示时平衡效率和相似性的重要性。
目标输出的困惑度与模型参数量的关系:分析发现ASRA攻击的成功率与目标输出的困惑度高度相关,而与模型参数量的关系有限。
实验在六种不同的预训练语言模型上进行,包括GPT-2、OPT、GPT-J、LLaMA、Alpaca和Vicuna。实验结果表明,ASRA在引发有毒输出方面的成功率高于现有最先进的离散优化器。此外,还进行了关于目标输出困惑度和模型参数量对ASRA攻击成功率影响的分析实验。
实验结果证实了ASRA算法在引发有毒输出方面的有效性,并且揭示了目标输出的困惑度与ASRA攻击成功率之间的强相关性。与此相反,模型参数量与ASRA性能的关联有限。
本文提出的ASRA算法能够有效地从PLMs中自动引出有毒内容。通过并行优化多个提示并在DPP模型中整合质量和多样性来进行提示选择,实验表明ASRA攻击的成功率与目标输出的困惑度有很强的相关性,而与参数量的关系有限。此外,本文还提出了一种基于有毒文本数据集的毒性评估潜在应用。
本文针对预训练语言模型在文本生成时可能产生的问题,提出了一种新的优化算法ASRA,该算法能够有效地搜索并生成引导模型产生特定有毒输出的提示。通过实验验证,ASRA在多个模型上都展现出了较高的成功率,并且与目标输出的困惑度有较强的相关性。这项工作不仅提高了对PLMs潜在风险的认识,也为未来如何提高模型安全性提供了有价值的参考。