An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulne

随着大型语言模型（LLMs）在代码补全任务中的应用，它们通过上下文提供建议，极大地提高了软件开发者的生产力。然而，这些模型经常针对特定应用进行微调，因此可能遭受投毒攻击和后门攻击，这些攻击可以隐蔽地改变模型的输出。

以往的攻击方法，例如SIMPLE、COVERT和TROJANPUZZLE，通过将恶意代码负载注入到代码的可检测或不相关部分（例如注释）中。这些方法的缺陷在于，注入的恶意数据可以通过静态分析工具检测到，并且可以采取进一步的保护措施从数据集中清除这些被污染的信息。

本文提出了CODEBREAKER，一个开创性的LLM辅助后门攻击框架，专门针对代码补全模型。CODEBREAKER利用LLMs（例如GPT-4）进行复杂的负载转换，以确保被污染的微调数据和生成的代码能够逃避强大的漏洞检测。该框架包括以下步骤：

实验包括以下方面：

实验结果表明，CODEBREAKER在各种设置下都展现出强大的攻击性能，并且验证了其在现有方法中的优越性。此外，实验还发现，即使在模型大小增加或微调数据集增大的情况下，攻击依然有效。

CODEBREAKER揭示了机器学习安全和软件安全中的多方面漏洞，强调了对代码补全的更强大的防御措施的迫切需求。通过将恶意负载直接集成到源代码中，并进行最小化的转换，CODEBREAKER挑战了当前的安全措施。

方法论：

实验结果：

结论：CODEBREAKER的成功表明，需要开发更强大的防御措施来保护代码补全模型免受后门攻击。

未来工作：探索更有效的防御策略，以及对大型语言模型在安全领域的进一步研究。

Last updated 1 year ago