# MULTIVERSE: Exposing Large Language Model Alignment Problems in  Diverse Worlds

<figure><img src="https://1203660092-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FVIbHxVNUonwDG5X6HrVv%2Fuploads%2F6SQQt4u4XlGiuzZgWbf1%2Fimage.png?alt=media&#x26;token=e19d0ae4-1aaa-4704-9caf-8c0c3c8a6104" alt=""><figcaption></figcaption></figure>

1. 研究背景： 本研究的背景是大型语言模型（LLMs）在与人类价值观对齐方面存在的问题。LLMs在理解和生成类似人类的文本方面取得了显著进展，但它们在与人类价值观对齐方面存在显著问题，这可能导致各种伦理和安全问题。研究人员已经展示了多种越狱技术，这些技术可以诱导LLMs在对话中产生恶意内容。发现相应的越狱提示通常需要大量的人类智能或计算资源。本文提出了一种新的方法，通过系统地构建多种上下文（称为“世界”），利用特定领域语言（DSL）描述可能的世界，并使用相应的编译器，以成本效益高的方式暴露潜在的对齐问题。
2. 过去方案和缺点： 以往的研究依赖于人类反馈的强化学习（RLHF）来改进LLMs的对齐。然而，RLHF的手动性质意味着这些努力可能受到限制。此外，现有的对齐训练主要集中在现实世界，而忽视了LLMs可能被利用的各种（虚拟）世界。这导致了LLMs在面对特定上下文组合时的脆弱性。

<figure><img src="https://1203660092-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FVIbHxVNUonwDG5X6HrVv%2Fuploads%2FnOBZE6LPJzujZYD59RMC%2Fimage.png?alt=media&#x26;token=6425cd75-d3e2-47c6-9218-06f4e34c8bca" alt=""><figcaption></figcaption></figure>

1. 本文方案和步骤： 本文提出了MULTIVERSE技术，它使用DSL来自动构建越狱提示。首先，从互联网上的人类编写的越狱模板中提取可能的（虚拟）世界参数，并使用GPT-4生成多个世界配置。然后，编译器处理配置并将恶意问题嵌入到创建的多世界宇宙中。如果越狱失败，MULTIVERSE将更新WDL配置并重新生成。这个过程一直持续，直到满足停止条件。
2. 本文实验和性能： 研究者们在不同的LLMs上进行了广泛的实验，包括开源和闭源模型。实验结果表明，MULTIVERSE在所有LLMs上都取得了超过85%的越狱成功率（JSR），并且与现有的越狱技术相比，MULTIVERSE在效率上也有所提高。此外，实验还表明，现有的LLMs在嵌套的多个幻想世界中特别脆弱，这表明现有的对齐训练在这些领域是不足的。

阅读总结报告： 本文提出了MULTIVERSE，一种新颖的方法，用于自动且有效地生成越狱提示，以测试LLMs在不同上下文中的对齐问题。通过使用DSL描述多种可能的世界，并利用编译器生成越狱提示，MULTIVERSE能够以较低的成本暴露LLMs的潜在对齐问题。实验结果表明，MULTIVERSE在各种LLMs上都取得了高越狱成功率，并且比现有的越狱技术更有效。这些发现强调了LLMs在现实世界以外的虚拟世界中的脆弱性，并指出了现有对齐训练的不足。研究还发现，LLMs在处理嵌套的多个世界时特别容易受到攻击，这为未来的研究和LLMs的安全改进提供了新的方向。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://elwood.gitbook.io/foundation-model-sec/llm-attack/multiverse-exposing-large-language-model-alignment-problems-in-diverse-worlds.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
