DRESS : Instructing Large Vision-Language Models to Align and Interact with Humans via Natural Lang
Last updated
Last updated
大型视觉-语言模型(LVLMs)能够理解视觉世界并根据指令生成用户友好的响应。这些模型通过结合大规模视觉指令微调和大型语言模型(LLMs)来实现。然而,现有的LVLMs在与人类偏好对齐和多轮交互能力方面存在局限性。
以往的LVLMs主要依赖于指令微调阶段来增强与人类偏好的对齐。但即使如此,它们仍然可能生成无用、幻觉或有害的响应。此外,尽管视觉指令微调数据通常以多轮对话格式结构化,但连续对话轮次之间的联系和依赖性较弱,这限制了LVLMs的有效多轮交互能力。
本文提出了DRESS,一个创新的大型视觉-语言模型,它利用来自LLMs的自然语言反馈(NLF)来增强其对齐和交互能力。DRESS通过将NLF分为批判性和精炼性两种类型来解决这些限制。批判性NLF用于识别响应的优缺点,以对齐LVLMs与人类偏好。精炼性NLF提供具体的改进建议,用于提高LVLMs在多轮交互中的交互能力。为了解决NLF的不可微分性质,本文推广了条件强化学习算法用于训练。
提出了自然语言反馈(NLF)的新颖分类,特别是批判性和精炼性NLF,以改善LVLMs与人类偏好的对齐和交互能力。
通过训练模型在NLF条件下生成相应的响应,推广了条件强化学习算法,有效地结合了不可微分的NLF。
在开放性视觉问答、图像标题生成、对抗性提示以及多轮交互方面系统地评估了提出的模型DRESS,并与先前的SOTA(State-of-the-Art)模型相比,展示了在有帮助性、诚实性和无害性对齐方面的相对改进。
生产并开源了63K个涵盖3H方面的注释视觉-语言NLF样本,并为无害性对齐和评估LVLMs提供了4.7K个示例的数据集。
实验结果表明,与先前的SOTA模型相比,DRESS能够生成更有帮助(9.76%)、更诚实(11.52%)和更无害(21.03%)的响应,并在多轮交互中更有效地从反馈中学习以改进响应。
DRESS在与人类价值观对齐方面的表现优于以往的LVLMs,并且在多轮交互中展现出更好的交互能力,能够有效地从反馈中学习以实时改进响应。
本文通过利用NLF来增强LVLMs的对齐和交互能力,创建了一个NLF数据集,并创新地提供了两种类型的NLF:批判性和精炼性。通过推广条件强化学习,DRESS能够有效地与人类偏好对齐,并展示出更好的多轮交互能力。
本文提出了DRESS,这是一个通过自然语言反馈(NLF)来提高大型视觉-语言模型(LVLMs)与人类偏好对齐和交互能力的模型。DRESS通过将NLF分为批判性和精炼性两种类型,有效地利用了LLMs提供的反馈。实验结果表明,DRESS在多个评估任务上都优于现有的SOTA模型,特别是在多轮交互和无害性对齐方面。这项工作为LVLMs的发展提供了新的视角,并为未来的研究提供了有价值的数据集和方法。