普林斯顿研究人员介绍了ShearedLLaMA模型,通过结构化剪枝加速语言模型预训练

『普林斯顿研究人员揭秘 ShearedLLaMA 模型:通过结构化剪枝来加速语言模型预训练』

大型语言模型(LLM)因其在各种自然语言任务中的出色能力而变得极其受欢迎。尽管它们发展迅速,但训练这些模型需要大量的计算资源,这是一个主要的缺点。因此,创建更紧凑和有效的LLM(如LLaMA、MPT和Falcon)的兴趣激增。这些VoAGI大小的模型旨在通过提供有效的推理和微调来支持各种用例。然而,从头开始训练即使是最小的数十亿参数的LLM,对于许多组织来说由于所需的大量计算资源而付之以高昂的代价。

研究人员之前已经证明了像LLaMA这样的中等规模的大型语言模型也可能具有同样强大的能力。这些模型被认为是大型LLM的更有效替代品,后者需要大量的处理能力来进行训练。在最近的一项研究中,一组研究人员研究了结构修剪作为一种成功的技术,用于将更大的预训练模型缩小为更小的LLM。该方法采用了两种关键策略,如下所示。

  1. 定向结构修剪:它是一种有系统地从更大的语言模型中消除层、头部、中间和隐藏维度的技术,以将其修剪为目标配置。由于这一过程是从头到尾进行的,模型的连贯性和功能性得到了保留。它在不牺牲重要的语言理解能力的情况下优化了模型。
  1. 动态批次加载:该方法根据不同领域中的损失水平变化修改每个批次的训练数据组成。它确保模型更多地集中于在某些任务或领域中表现不佳,通过动态修改每个批次中使用的数据样本。这样它可以有效地调整性能,提高整体效率。

由LLaMA2-7B模型修剪而来的两个较小的LLM(即Sheared-LLaMA-1.3B and Sheared-LLaMA-2.7B)显示了这种建议的方法的有效性。这个修剪过程只消耗了50亿令牌,即OpenLLaMA预训练预算的5%,用于训练集。尽管存在这些缺点,Sheared-LLaMA-1.3B和Sheared-LLaMA-2.7B在许多11个典型的下游任务中的表现要优于其他知名的相同规模的LLM,如Pythia、INCITE和OpenLLaMA。这些练习涉及各种主题,包括针对开放式生成的指令调优、阅读理解、常识理解和世界知识。

根据修剪模型的性能轨迹,进一步训练更多令牌也可能带来更大的收益。虽然当前研究的试验局限于最多70亿参数的模型,但LLM剪切技术被设计为具有很强的普适性,并可以扩展到将来的大规模语言模型的调查。

总之,LLM修剪通过动态批次加载和定向结构修剪提供了一种完整的LLM尺寸减小的方法。建立表现优于相同规模模型的Sheared-LaMA模型有效地证明了这一点。这种方法展示了如何更有效、更经济地开发较小但强大的LLM,并且可以用于各种模型规模。