Zephyr 直接萃取LLM对齐

Zephyr直接萃取LLM,让对齐更加轻松

近年来,小型开放式大语言模型的能力和性能取得了显著进展,我们见证了从早期的GPT-2模型到更紧凑、准确和高效的LLM框架的发展,这些框架利用了比“计算最优”所推荐的Chinchilla缩放规律所需的令牌数量更多得多。此外,开发人员已经证明,这些较小的LLM框架可以进一步通过使用基于专有模型的dSFT或蒸馏监督优化方法进行训练,该方法使用有效的教师模型的输出作为学生模型的监督数据,以提高准确性。

在本文中,我们将讨论Zephyr-7B框架,这是一种最先进的适用于7B参数模型的聊天基准测试,不需要人类注释。该框架的主要目标是使开发人员能够生产比以往更贴近用户意图的更小的大型语言模型。Zephyr-7B框架不仅检查了当前针对较大LLM框架(如dSFT)的方法的应用,还探索了使用其他方法来学习具有更好与用户意图对齐的聊天模型的可能性。我们将深入探讨Zephyr框架的架构、工作原理和结果。所以让我们开始吧。

Zephyr-7B:直接对齐语言模型的蒸馏简介

正如前面提到的,近年来语言模型的发展迅速,从早期的GPT-2框架到当前的GPT-4和MiniGPT-5 LLM框架,虽然高度令牌耗费,但现在更准确且更高效。这些先进的LLM框架的一个重要特点是它们比早期认为在Chinchilla缩放规律下计算上最优的令牌数量要多得多。此外,开发人员和研究人员在LLM框架上的工作中了解到,这些较小的LLM框架可以进一步通过使用基于专有模型的dSFT或蒸馏监督优化方法进行训练,该方法使用有效的教师模型的输出作为学生模型的监督数据,以提高准确性。蒸馏策略已经被证明是一种非常有效和有用的工具,可以最大限度地发挥开放模型在各种任务上的潜力和能力,尽管它还不能复制教师模型所达到的性能。此外,用户经常报告这些模型经常显示“意图不对齐”,意味着模型的行为不符合最终用户的需求,导致不提供正确的输出或响应以满足用户输入或查询。

意图对齐一直是开发人员面临的一个主要挑战,最近的研究主要集中在开发像AlpacaEval和MT-Bench这样的基准测试,旨在解决不对齐问题。开发Zephyr框架的动机可以归功于将蒸馏用于完全对齐小型开放LLM框架的问题,其中首要步骤是利用AIF或人工智能反馈从教师模型集合中获取偏好数据,然后直接应用蒸馏偏好优化作为主要学习目标,这种方法称为dDPO或去噪扩散策略优化。dDPO方法的主要亮点是,与其前辈方法(如PPO或近邻优先优化)不同,它不需要人工抽样或注释,并且大大减少了训练语言模型所需的时间。此外,它还允许开发人员通过从开始到结束的去噪步骤序列来密切关注最终样本的奖励,换句话说,贯穿整个过程。

开发人员开发了Zephyr-7B框架来验证这种方法,在某种程度上,它是最先进的Mistral-7B框架的对齐版本。该框架首先使用基于UltraChat数据集的dSFT或蒸馏监督优化,然后将dDPO或去噪扩散策略优化应用于反馈数据。实验表明,具有70亿参数的Zephyr-7B框架的结果与具有超过700亿参数的人工反馈对齐聊天模型提供的结果相当。此外,实验还表明,无论是在将对话能力纳入考虑的基准测试,还是在标准学术基准测试方面,都可以改善结果,并且使用偏好学习对于实现所需结果至关重要。

上图展示了不同语言模型在MT-bench基准测试上的表现。使用dDPO方法训练的Zephyr-7B框架与专有模型以及使用额外强化学习训练和包含大量人类反馈的开放访问更大的语言模型(如GPT-3.5 turbo、Llama-2-70B等)进行对比。可以清楚地看到,尽管这些框架使用的参数数量存在显著差异,Zephyr-7B框架在大多数模型上都能产生可比较的结果,并在不同领域中表现优于其他框架。

Zephyr-7B:方法、工作原理和架构

Zephyr-7B框架的主要目标是帮助一个开源的大型语言模型尽可能接近用户的意图,在整个过程中,Zephyr-7B框架假设可以查询一个大型教师模型以生成提示。Zephyr-7B采用与InstructGPT框架类似的方法,旨在生成一个有效准确的学生模型。

以下图示简要展示了Zephyr-7B框架工作的三个主要步骤:

  1. 使用自学习样式进行大规模数据集构建的dSFT。
  2. 使用一组完成聊天模型的集合进行AIF收集,随后通过GPT-4进行偏好二值化和评分。
  3. 通过利用反馈数据进行dSFT模型的dPO。

dSFT或蒸馏的监督微调

该框架从原始的大型语言模型开始,首先需要对其进行训练,以响应用户提示。传统上,训练这些大型语言模型以响应用户提示是在一个包含高质量指令及其相应响应的数据集上进行的,使用SFT或监督微调的方法。由于Zephyr-7B框架可以访问教师语言模型,因此可以生成指令和响应,并直接在这些指令和响应上对模型进行训练,这种方法称为dSFT或蒸馏的SFT。下图展示了SFT执行的蒸馏过程,其中x表示一组用于代表多种课题领域的种子提示,y表示样本响应,使用新的样本指令x1对其进行改进,C表示最终数据集中的终点。

通过偏好进行AI反馈

人类反馈被用于指派大型语言模型,因为它们能够提供所需的额外信号,而这些人类反馈传统上是通过对LLM框架生成的响应质量的偏好来提供的。然而,Zephyr框架使用教师模型对其他模型生成的输出进行AI反馈,而不是人类反馈进行蒸馏。Zephyr框架所采用的方法受到了UltraFeedback框架的影响,该框架使用教师模型对模型的输出进行评分偏好。

与SFT或监督微调方法类似,它从一组提示开始,其中x表示每个单独的提示,然后将其输入到一组模型(如Llama、Falcon、Claude等)中,每个模型都会生成自己的响应。然后,将这些响应作为输入提供给教师模型(如GPT-3或GPT-4),模型会为输入的响应输出一个得分。在收集输出得分之后,模型会保存得分最高的响应。

dDPO或蒸馏的直接偏好优化

dDPO 是 Zephyr 框架的最后一步,其主要目标是通过利用学生语言模型,通过优化使得偏好模型中的首选回答在奖励函数确定的偏好模型中的排名概率最大化,从而改善 dSFT 老师模型。先前的步骤主要依赖于使用强化学习方法,如 PPO 或 Proximal Policy Optimization 进行最大化奖励的优化。在这一步骤中,首先训练奖励,然后从当前策略中抽样计算更新,从而最大化优化。DPO 或直接偏好优化采取了类似的方法,直接使用静态数据优化偏好模型。将奖励函数插入偏好模型后的目标可以写为

Zephyr-7B:实验、基准和结果

Zephyr 框架在当前处于技术前沿的 Mistral-7B 框架上进行微调实验,在各种自然语言处理或 NLP 任务上实现了与更大语言模型具有可比性的性能。

数据集

Zephyr 框架使用了两个对话数据集,这些数据集是从专有和开放模型的混合中提取出来的,之前这些数据集已被证明在生成有效的聊天模型方面非常有效。

UltraChat

UltraChat 是一个自我完善的数据集,包含近150万个多轮对话,涵盖30个主题,以及由 GPT-3.5-Turbo 框架生成的20个文本材料。为解决 UltraChat 数据集中的错误大小写问题,该框架采用了大小写真实性启发式方法来消除语法错误。

UltraFeedback

UltraFeedback 是一个提示数据集,包含超过6.4万个提示,每个提示都有四个 LLM 响应。Zephyr 框架使用 UltraFeedback 数据集中获得的最高平均分数构建二元偏好模型,并且剩下的三个 LLM 响应之一被随机排除。

评估

为了评估 Zephyr 框架的性能,开发人员选择了两个聊天基准,一个是单轮聊天,一个是多轮聊天,旨在评估模型遵循用户指令并相应地回答的能力。

MT-Bench

MT-Bench 评估基准包含160个问题,涵盖8个独特的知识领域,在 MT-Bench 基准下,模型需要对初始问题进行回答,并在后续问题中提供回应。

AlpacaEval

AlpacaEval 是一个单轮评估基准,其中模型或框架对超过800个分布在不同主题上的问题生成用户回复,重点关注的是有用性。

除了这两个主要基准外,Zephyr-7B 框架还在 Open LLM Leaderboard 上进行了多类别分类任务的评估,包括 ARC、HellaSwag、MMLU 等等。此外,无论 Zephyr-7B 框架在哪个基准上评估,都会与一系列专有和开放模型进行比较,其对齐程序是唯一的区别因素。

结果

现在让我们看看 Zephyr-7B 框架的表现如何,并与当前技术前沿的语言模型进行比较。

实施 dDPO 方法提升聊天能力

下表比较了 Zephyr-7B 框架在 AlpacaEval 和 MT-Bench 基准上与现有技术前沿的语言模型的性能。

如图所示,与开放式7B模型相比,Zephyr-7B框架不仅在两个基准测试中显着优于dSFT模型,还为新的最先进标准树立了榜样。此外,Zephyr-7B框架还成功超越了XWIN-LM-7B框架,后者是罕见的基于dPPO或蒸馏PPO方法训练的模型之一。此外,Zephyr-7B框架的表现与Llama2-Chat等具有超过70B参数的更大型语言模型的结果相当。

dDPO提升学术任务性能

以下图表比较了Zephyr-7B框架与各类开源和专有的LLM框架的性能。

如图所示,Zephyr-7B框架明显优于具有7B参数的LLM框架,其性能与表现最佳的dSFT模型之间的差距也是显而易见的。随着参数数量的增加,Zephyr-7B框架的表现确实有所不足,尽管它与具有400亿参数的框架的性能相匹配。

偏好优化

在以下图表中,我们评估对齐过程中所采取的不同步骤对性能的影响。从图中可以看出,当dDPO方法与dSFT相结合时,它显著提升了MT-Bench和AlpacaEval数据集的性能。

最后,在以下图表中,我们可以看到DPO实施过程中的测试和训练准确率。从图中可以看出,DPO方法不会影响模型在下游任务上的性能。

结论

在本文中,我们介绍了基于目前最先进的Mistral-7B框架的Zephyr-7B框架,旨在解决将大型语言模型对齐到更小的预训练框架的当前挑战。该框架的主要目标是使开发者能够产生与用户意图更加紧密对齐的较小型大型语言模型。Zephyr-7B框架不仅研究了像dSFT这样针对更大型LLM框架的现有方法的应用,还探索了使用其他方法来学习具有更好用户意图对齐的聊天模型的可能性。

然而,尽管有着令人期待的结果,Zephyr-7B框架并不完美,还需要进行一些工作。其中一个明显的限制是使用GPT-4框架来评估MT-Bench和AlpacaEval基准测试,该框架经常对其自身蒸馏出的模型存在偏见。然而,Zephyr-7B框架希望为探索与用户意图和互动更加对齐的较小型开放模型的能力铺平道路。