Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

1. 研究背景

本研究探讨了通过监督式微调(fine-tuning)在大型语言模型(LLMs)中整合新知识的影响。在微调过程中,模型可能会遇到预训练阶段未获得的新事实信息。通常认为,这可能导致模型学会生成与预训练知识不符的事实错误响应,即产生“幻觉”(hallucinations)。研究者们通过设计控制实验,研究了新知识对微调模型利用其已有知识能力的影响。

2. 过去方案和缺点

以往的研究通常关注于如何通过微调来提升模型在特定任务上的表现,而较少关注微调过程中引入新知识可能带来的负面影响。特别是,现有研究缺乏对模型在微调后产生幻觉行为的系统性评估。

3. 本文方案和步骤

  • SliCK方法提出:研究者提出了SliCK(Sampling-based Categorization of Knowledge),一种基于连续度量的层次化知识分类方法,用于量化模型生成答案与真实标签之间的一致性。

  • 控制实验设计:通过改变微调样本中引入新知识的比例,进行封闭书籍问答(closed-book QA)的控制实验。

  • 实验变量控制:保持其他因素不变,仅改变未知知识(Unknown)样本的比例,以评估其对模型表现的影响。

4. 本文创新点与贡献

  • SliCK分类法:创新性地提出了一种新的知识分类方法,有助于更细致地评估模型的知识掌握情况。

  • 幻觉与新知识相关性研究:首次系统性地研究了微调中新知识引入与模型产生幻觉之间的相关性。

  • 实验设计:通过精细控制微调数据中新旧知识的比例,提供了评估新知识影响的严格实验框架。

5. 本文实验

  • 实验使用了PaLM 2-M基础模型,并关注精确匹配(Exact Match, EM)作为评估指标。

  • 通过改变微调数据集中未知样本的比例,研究者评估了这对模型在测试集上的表现的影响。

  • 实验还包括了对不同已知知识类别(HighlyKnown, MaybeKnown, WeaklyKnown)的微调样本对性能影响的评估。

6. 实验结论

  • 微调样本中引入的新知识与模型产生幻觉的倾向性呈线性相关。

  • 大型语言模型在微调过程中难以整合新知识,而更倾向于通过已知样本学习如何更有效地利用已有知识。

  • 使用早期停止(early-stopping)或过滤掉未知样本可以减少过拟合和幻觉的风险,而不牺牲性能。

7. 全文结论

研究指出,通过微调引入新知识可能带来模型产生幻觉的风险,并支持了大型语言模型主要通过预训练阶段获得知识的观点。微调可能更有效地作为一种机制来增强已有知识的利用。此外,研究还提出了一些可能的解决方案,如使用不确定性表达式重新标记未知样本,以减少负面影响。

阅读总结

本文通过提出SliCK方法和精心设计的实验,为理解大型语言模型在微调过程中如何处理新知识提供了新的视角。研究结果强调了在微调实践中需要谨慎引入新知识,以避免模型产生幻觉。此外,本文的发现对于设计更有效的微调策略和提高模型的鲁棒性具有重要意义。

Last updated