大模型安全笔记

CtrlK

Privacy-Attack

PANDORA’S WHITE-BOX: INCREASED TRAINING DATA LEAKAGE IN OPEN LLMS Untitled Membership Inference Attacks against Large Language Models via Self-prompt Calibration LANGUAGE MODEL INVERSION Effective Prompt Extraction from Language Models Prompt Stealing Attacks Against Large Language Models Stealing Part of a Production Language Model Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Cali Prompt Stealing Attacks Against Large Language Models PRSA: Prompt Reverse Stealing Attacks against Large Language Models Low-Resource Languages Jailbreak GPT-4 Scalable Extraction of Training Data from (Production) Language Models

PreviousPromptCARE: Prompt Copyright Protection by Watermark Injection and Verification NextPANDORA’S WHITE-BOX: INCREASED TRAINING DATA LEAKAGE IN OPEN LLMS