通过MINILLM揭示人工智能的潜力:深入探讨从更大的语言模型到更小的对应模型的知识蒸馏

知识蒸馏是一种典型的策略,通过大型教师模型的监督训练小型学生模型来减少由于大型语言模型的快速发展而导致的过度计算资源需求。黑盒知识蒸馏和白盒知识蒸馏是经常使用的两种知识蒸馏方法,其中只有教师的预测是可访问的黑盒知识蒸馏,而使用教师的参数的白盒知识蒸馏。最近黑盒知识蒸馏在优化由LLM API生成的快速响应对上的微小模型方面表现出了令人鼓舞的结果。当开源LLM越来越多时,白盒知识蒸馏对于研究界和工业部门变得越来越有帮助,因为学生模型可以从白盒教师模型获得更好的信号,从而可能导致改善性能。

尽管白盒知识蒸馏尚未研究生成式LLM,但它主要是针对小型(1B参数)的语言理解模型进行研究的。他们在本文中研究了LLMs的白盒知识蒸馏。他们认为,普通的知识蒸馏对于执行生成任务的LLMs可能更好。标准的知识蒸馏目标(包括针对序列级模型的几种变体)基本上最小化了教师和学生分布之间的近似前向Kullback-Leibler散度(KLD),即KL,强制p覆盖由教师分布p(y|x)和由参数化的学生分布q(y|x)给定的q的所有模式。KL对于文本分类问题表现良好,因为输出空间通常包含有限数量的类,确保p(y|x)和q(y|x)都具有少量模式。

然而,对于输出空间更复杂的开放文本生成问题,p(y|x)可能代表的模式范围要比q(y|x)宽得多。在自由运行生成期间,最小化前向KLD可能导致q赋予p的空白区域过高的概率,并在p下产生高度不可能的样本。他们建议最小化反向KLD,KL,这在计算机视觉和强化学习中通常使用,以解决这个问题。一个 pilot 实验显示低估 KL 会驱动 q 寻求 p 的主要模式并使其空置区域的概率降低。

这意味着在LLMs的语言生成中,学生模型避免学习太多教师分布的长尾版本,而是集中于生成的响应的准确性,在需要诚实和可靠性的现实世界情况下这非常重要。他们利用 Policy Gradient 生成目标的梯度以优化 min KL。最近的研究表明,策略优化在优化 PLMs 中非常有效。然而,他们还发现,训练模型仍然存在过度变化、奖励攻击和生成长度偏差等问题。因此,他们包括以下内容:

  1. 单步规范化以减少变化。
  2. 教师混合抽样以减少奖励攻击。
  3. 长度规范化以减少长度偏差。

在包括各种NLP任务的指令遵循设置中,清华大学和微软研究的研究人员提供了一种名为MINILLM的新技术,然后将其应用于几个参数大小从120M到13B的生成语言模型中。使用了五个指令遵循数据集以及用于评估的Rouge-L和GPT-4反馈。他们的测试表明,MINILM从120M模型成功扩展到13B模型,并在所有数据集上始终击败基线标准KD模型(见图1)。更多的研究表明,MINILLM在产生更长的回复、更具多样性方面效果更好,并且具有更少的暴露偏差和更好的校准性。这些模型可在GitHub上获得。

图1显示了MINILLM和序列级KD(SeqKD)在评估集上的平均GPT-4反馈得分比较。左侧为GPT-2-1.5B,学生为GPT-2 125M、340M和760M。中间:GPT-2 760M、1.5B和GPT-Neo 2.7B是学生,而GPT-J 6B是教师。右侧为OPT 13B,学生为OPT 1.3B、2.7B和6.7B。