TRAP: Targeted Random Adversarial Prompt Honeypot for Black-Box Identification
Last updated
Last updated
大型语言模型(LLMs)的普及带来了实际问题,如模型泄露、恶意使用和潜在的模型许可证违约。LLM提供商面临着内部泄露的威胁,以及技术被恶意使用的挑战。例如,社交媒体机器人利用ChatGPT传播虚假内容。此外,开源LLM提供商实施额外的模型分发限制,以控制模型的使用。然而,法律保护措施在无法执行的情况下效果有限。执行的第一步是评估LLM是否在特定第三方应用中使用。目前,没有专门针对这一问题的研究报告或工具。
直接询问模型身份:这种方法不可靠,因为LLMs可能会提供不准确的信息,或者通过系统提示被欺骗。
基于困惑度的识别:这种方法利用困惑度来区分人类编写的文本和LLM生成的文本。然而,这种方法在黑盒身份验证(BBIV)场景中可能不是最优的,因为它没有利用与未识别模型的动态交互潜力。
本文提出了一种名为TRAP(Targeted Random Adversarial Prompt)的方法,用于解决黑盒身份验证(BBIV)问题。TRAP利用对抗性后缀生成技术,通过精心设计的提示,使特定模型产生预定的回答,而其他模型则产生随机回答。
提出了BBIV这一新任务,对于评估合规性至关重要。
提出了TRAP方法,使用训练有素的提示后缀,可靠地迫使特定LLM以预定义的方式回答。
实验评估了TRAP在不同LLMs上的表现,包括Llama-2-7B-chat、Guanaco-7B和Vicuna-7B。实验结果表明,TRAP在检测目标LLM时具有超过95%的真正阳性率,并且在0.2%以下的假阳性率。
TRAP在准确识别目标LLM方面表现出色,即使在第三方对模型进行了轻微修改的情况下也能保持有效。TRAP在真阳性率和假阳性率之间的权衡比基于困惑度的识别方法更优。
本文通过TRAP方法解决了LLM提供商面临的BBIV问题,提高了LLM使用的透明度和合规性。尽管TRAP显示出潜力,但它可能面临第三方的先进对策。未来的研究可以探索将TRAP技术应用于隐写术,以及如何提高其在不同系统提示下的鲁棒性。
本文针对LLMs的黑盒身份验证问题提出了TRAP方法,这是一种创新的解决方案,能够有效地识别特定LLM。TRAP通过对抗性后缀生成技术,使得LLM提供商能够在第三方应用中检测到他们的模型是否被使用。实验结果证明了TRAP的高效性和鲁棒性,为LLM的合规性评估提供了新的工具。然而,TRAP的局限性在于可能受到第三方对策的影响,这需要未来的研究来进一步探索和改进。