Reducing hallucination in structured outputs via Retrieval-Augmented Generation

1. 研究背景

生成性人工智能(Generative AI, GenAI)的一个当前限制是其产生幻觉(hallucinate)的倾向。大型语言模型(Large Language Models, LLMs)虽然受到广泛关注,但如果不消除或至少减少幻觉现象,GenAI系统在现实世界中的应用可能会继续面临用户采用的挑战。在部署一个将自然语言需求转换为工作流的企业应用程序的过程中,作者设计了一个利用检索增强生成(Retrieval-Augmented Generation, RAG)的系统,以提高代表这些工作流的结构化输出的质量。

2. 过去方案和缺点

过去,使用大型语言模型(LLMs)直接生成结构化输出(如代码或SQL)的方法存在产生不可信输出的风险。尽管对足够大的LLM进行微调可以产生合理的工作流,但模型可能会产生幻觉,尤其是在自然语言输入处于分布外(out-of-distribution)的情况下。此外,企业用户需要根据自己的需求定制应用程序,这就需要商业GenAI应用程序最小化分布外不匹配的情况。然而,针对每个企业进行LLM的微调可能因基础设施成本高昂而变得不可行。

3. 本文方案和步骤

作者提出的系统在初始化时使用检索器创建步骤和表格的索引。当用户提交请求时,检索器被调用以建议步骤和表格。然后将这些建议添加到用户查询中,形成LLM的提示。接着调用LLM通过贪婪解码生成JSON格式的工作流。系统首先训练检索器编码器以对齐自然语言和JSON对象,然后以RAG方式训练LLM,包括检索器的输出在其提示中。

4. 本文创新点与贡献

  • 将RAG应用于工作流生成,这是一个结构化输出任务。

  • 展示了使用RAG可以减少幻觉并改善结果。

  • 证明了可以部署一个更小的LLM,同时使用一个非常小的检索器模型,而不会损失性能。

5. 本文实验

作者创建了自己的数据集和评估指标。使用从企业平台内部部署中提取的大约4,000个工作流示例,并要求注释者为它们编写自然语言需求。此外,还创建了大约1,000个具有简单和少量步骤的样本,以教导模型处理用户逐步构建工作流的输入。评估整个RAG系统使用三个指标:触发器精确匹配(Trigger Exact Match, EM)、步骤袋(Bag of Steps, BofS)和幻觉表格(Hallucinated Tables, HT)与幻觉步骤(Hallucinated Steps, HS)。

6. 实验结论

实验结果表明,使用检索器可以显著减少幻觉步骤和表格的百分比。在没有检索器的情况下,"Human Eval"分割上的幻觉步骤和表格的百分比可能高达21%。使用检索器后,这一比例降低到不到7.5%的步骤和不到4.5%的表格。此外,作者还评估了在不同领域的外分布(OOD)情况下的性能,证明了所选RAG微调StarCoderBase-7B模型在OOD分割上的表现与领域内结果相似。

7. 全文结论

作者提出了一种部署检索增强的大型语言模型(RAG-LLM)的方法,以减少幻觉并允许在结构化输出任务中的泛化。减少幻觉对于用户采用现实世界的GenAI系统至关重要。研究表明,即使在资源有限的设置中,也可以通过使用一个非常小的检索器与一个小型LLM配对来部署RAG系统。未来的工作包括通过联合训练或允许它们更好地协同工作的模型架构来改善检索器和LLM之间的协同作用。

阅读总结

本文提出了一种利用检索增强生成(RAG)技术来减少生成性AI(GenAI)系统中的幻觉现象,并提高结构化输出质量的方法。通过在自然语言到工作流转换的企业级应用中部署RAG系统,作者成功地展示了如何减少幻觉并提高输出的可信度。实验结果表明,该方法不仅提高了生成工作流的质量,还允许在不牺牲性能的情况下部署更小的LLM。此外,该系统在处理外分布数据时也表现出良好的泛化能力。作者还讨论了提高系统吞吐量和响应时间的潜在工程改进,并指出了未来的研究方向。

Last updated