# Toxicity in CHATGPT: Analyzing Persona-assigned Language Models

<figure><img src="/files/9m9tLJkOLjbM4g7iTTY8" alt=""><figcaption></figcaption></figure>

##

### 1. 研究背景

大型语言模型（LLMs）如GPT-3和PaLM等在多种复杂任务中展现出了令人印象深刻的潜力，包括写作、对话和代码生成等。随着这些模型的能力增强，它们被广泛应用于各种面向消费者的服务中，如医疗、治疗、教育和客户服务等。这些服务的用户群体包括学生和病人等对信息有关键需求的人群，因此这些系统的安全性至关重要。然而，随着LLMs规模的不断扩大，安全性问题往往被忽视，这导致了一些潜在的安全风险。

### 2. 过去方案和缺点

以往的研究主要集中在LLMs的偏见和歧视问题上，但对LLMs在特定人格设定下的毒性输出的研究较少。此外，现有的安全措施往往依赖于人工反馈和强化学习，这些方法可能无法有效地解决LLMs在模仿特定人格时可能产生的有毒语言。

### 3. 本文方案和步骤

本文通过对CHATGPT进行大规模的毒性分析，系统地评估了在为CHATGPT分配不同人格设定时，其生成内容的毒性。研究者们通过修改CHATGPT的系统参数来为其分配不同的人格，并使用PERSPECTIVEAPI来衡量生成内容的毒性。此外，研究者们还采样了多样化的人格和实体，并对CHATGPT的响应进行了定量和定性分析。

### 4. 本文创新点与贡献

* 本文首次对CHATGPT在分配特定人格后生成的有毒语言进行了大规模分析。
* 研究发现，根据分配给CHATGPT的人格不同，其毒性输出可以有显著变化，甚至高达6倍。
* 本文揭示了CHATGPT在生成关于特定实体（如性别、宗教等）的内容时，会表现出对某些群体的歧视性意见。
* 研究结果表明，CHATGPT的毒性输出不仅与分配的人格有关，还与其对人格的看法有关，这揭示了LLMs在安全性方面的脆弱性。

### 5. 本文实验

实验使用了CHATGPT API，并为模型分配了90个不同的人格。研究者们生成了关于实体的响应和对不完整短语的续写，使用了REALTOXICITYPROMPTS数据集。实验结果通过PERSPECTIVEAPI进行评估，并对差异进行了统计显著性检验。

### 6. 实验结论

实验结果表明，CHATGPT在被分配特定人格后，其生成的内容的毒性显著增加。此外，不同的人格会导致不同程度的毒性输出，且CHATGPT会针对特定实体和群体产生歧视性意见。这些发现表明，CHATGPT在安全性方面存在潜在的风险。

### 7. 全文结论

本文通过大规模的毒性分析，揭示了CHATGPT在模仿特定人格时可能产生的有毒语言问题。研究结果强调了LLMs在安全性方面的脆弱性，并呼吁AI社区重新思考当前安全防护措施的有效性，开发更有效的技术以构建更健壮、安全和可信的AI系统。

### 阅读总结

本文通过对CHATGPT的毒性分析，揭示了大型语言模型在特定人格设定下可能产生的安全风险。研究结果表明，LLMs的毒性输出与其模仿的人格密切相关，并且对特定实体和群体存在歧视性意见。这些发现对于理解和改进LLMs的安全性具有重要意义，并为未来的研究和实践提供了新的视角和挑战。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://elwood.gitbook.io/foundation-model-sec/others/toxicity-in-chatgpt-analyzing-persona-assigned-language-models.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
