Defending Against Social Engineering Attacks in the Age of LLMs

1. 研究背景

随着大型语言模型（LLMs）的快速发展，它们在生成逼真对话方面的能力显著提高，但同时也带来了数字欺骗检测和缓解的挑战。LLMs能够模拟人类对话模式，可能被用于促进基于聊天的社交工程（CSE）攻击，这类攻击超越了传统的网络钓鱼邮件和网站，对个人和企业构成了威胁。

2. 过去方案和缺点

现有的研究已经开发了理解人与人之间CSE攻击的框架，并探索了使用机器学习和深度学习技术来检测和预防这些威胁。然而，LLMs被滥用来生成和持续CSE攻击的情况尚未被充分探索，这使得我们对这种新出现的风险准备不足。

3. 本文方案和步骤

数据集开发：研究者开发了一个新的数据集SEConvo，模拟学术和招聘背景下的CSE场景，以检验LLMs如何在这些情境中被利用。
模型评估：评估了代表性LLMs（如GPT4和Llama2）在零样本和少样本提示设置中检测CSE的性能。
方案提出：提出了ConvoSentinel，这是一个模块化的防御流程，旨在提高消息级和对话级CSE检测的准确性。

4. 本文创新点与贡献

SEConvo数据集：首次为CSE提供了一个由单一LLM模拟和代理间交互组成的数据集，模拟现实场景中的SE攻击和防御。
ConvoSentinel：提出了一个模块化流程，用于对抗多轮CSE。该流程系统地分析多轮CSE对话，标记恶意消息，并整合发现以检测整个对话中的SE尝试。
检索增强模块：ConvoSentinel集成了检索增强生成（RAG）模块，通过与已知CSE交互的数据库比较消息来识别恶意意图。

5. 本文实验

对SEConvo数据集进行人类标注，验证数据质量。
使用不同的模型对消息级敏感信息（SI）请求进行检测和分类。
评估了ConvoSentinel在不同阶段的CSE检测性能。

6. 实验结论

ConvoSentinel在早期阶段的CSE检测中表现出色，尤其是在对话的前几条消息中。
ConvoSentinel在整体和恶意F1得分上均优于基线模型，显示出更好的性能和成本效益。

7. 全文结论

本文研究了LLMs在CSE场景中的双重角色——作为CSE威胁的促进者和防御者。尽管现成的LLMs在生成高质量CSE内容方面表现出色，但它们的检测和防御能力不足，容易受到攻击。ConvoSentinel作为一个模块化的防御流程，通过使用检索增强技术来提高恶意意图识别的准确性，提供了更适应性强和成本效益高的解决方案。

总结

本文针对大型语言模型可能被滥用来进行社交工程攻击的问题，提出了一套检测和防御机制。通过创建SEConvo数据集和开发ConvoSentinel模块化防御流程，本文在提高CSE攻击检测准确性方面做出了贡献。实验结果表明，ConvoSentinel能够有效地在早期阶段识别CSE攻击，并且具有较高的成本效益。这项研究为理解和应对LLMs在CSE情境中带来的挑战提供了基础框架，并指出了未来研究的方向。

PreviousAI RISK MANAGEMENT SHOULD INCORPORATE BOTH SAFETY AND SECURITY NextAdversarial Perturbations Cannot Reliably Protect Artists From Generative AI

Last updated 1 year ago