Stealth edits for provably fixing or attacking large language models

PreviousStealth edits for provably fixing or attacking large language models NextIS POISONING A REAL THREAT TO LLM ALIGNMENT? MAYBE MORE SO THAN YOU THINK

Last updated 1 year ago