“卓风7B Beta:你所需要的只是一位好老师”

卓风7B Beta:只需一个优秀导师就能满足你的需求

Mistral 7B的知识蒸馏

来自Pixabay的图片

Mistral 7B是最好的预训练大型语言模型(LLMs)之一。通过发布带有DPO的Zephyr 7B Alpha,Hugging Face已经证明Mistral 7B可以超越体积大10倍的聊天模型,并在某些任务上达到GPT-4的性能。

从模型名称中的“Alpha”可以看出,Hugging Face显然计划发布更好的Zephyr 7B版本。事实上,他们仅在2周后发布了Zephyr 7B Beta。这里有一份关于该模型及其评估的arXiv技术报告:

Zephyr: 直接蒸馏LM对齐 (Tunstall等人,2023年)

本文中,我们将看到Zephyr 7B Beta比更大的LLMs更好的原因。特别是,我们将看到Hugging Face如何利用更大的LLMs(如GPT-4)来教导Mistral 7B回答指令并将答案与人类偏好对齐。

蒸馏:当较小的LLMs从较大的LLMs学习时

由于Hugging Face依靠知识蒸馏(KD)来训练Zephyr,让我们简要回顾一下在LLMs的背景下,什么是KD。

大多数LLMs是通过人类编写的文本进行训练的。人类文本呈现出高度多样的标记序列和难以建模的词汇。由于这个困难,我们需要大量的数据来训练LLM以正确建模语言。

有一种缩减训练成本和难度的捷径:知识蒸馏(KD)。有许多种方式可以进行蒸馏。在本节中,我只讨论Hugging Face使用的方法。

一旦在人类文本上训练完毕,尽管LLMs在生成语言方面可能非常出色,但它们只是近似语言的真实概率分布。LLMs生成的标记序列比人类默认情况下要少得多。注意:这就是为什么通常在推断过程中引入随机抽样的原因,例如通过核心抽样(nucleus sampling)来改善生成文本中的多样性。

由于LLMs生成的标记序列较人类文本的多样性较低,学习建模这些生成序列是一项更容易的任务。