研究者提出了一个黑盒框架,用于为非结构化图像和文本生成生成对抗性提示。这些提示可以独立使用或作为良性提示的前缀,以诱导生成过程中的特定行为,例如生成特定对象的图像或生成高困惑度的文本。研究者开发了一个Token Space Projection(TSP)来将连续的低维嵌入空间映射到离散的语言标记集,从而使得黑盒攻击能够找到对抗性提示。
4. 本文创新点与贡献
提出了一个在黑盒设置中寻找对抗性提示的框架,特别是针对那些只有API访问权限的基础模型。
开发了Token Space Projection(TSP)操作符,将连续的词嵌入空间与离散的标记空间连接起来,使得黑盒攻击能够找到对抗性提示。