认识Wanda:一种简单有效的大型语言模型修剪方法

大型语言模型(LLMs)的流行度和使用率不断增长。在生成式人工智能领域取得巨大成功的同时,这些模型正在引领一些巨大的经济和社会变革。最具代表性的LLMs之一是由OpenAI开发的仿人聊天机器人ChatGPT,自发布以来已经拥有数百万用户。它基于自然语言处理和自然语言理解,能够回答问题、生成独特创意的内容、总结冗长的文本、完成代码和电子邮件等等。

拥有大量参数的LLMs需要大量的计算资源,为了减少计算量,人们采用了诸如模型量化和网络修剪等方法。模型量化是一种减少LLMs参数位级表示的过程,而网络修剪则通过去除特定权重来减小神经网络的大小,从而将其置为零。对于修剪LLMs的不重视主要是由于当前方法中重新训练、从头训练或迭代过程所需的庞大计算资源。

为了克服这些限制,卡内基梅隆大学、FAIR、Meta AI和博世人工智能中心的研究人员提出了一种名为Wanda(通过权重和激活进行修剪)的修剪方法。受到LLMs显示出突出的大幅特征的研究启发,Wanda在不需要重新训练或权重更新的情况下,在预训练的LLMs中引入了稀疏性。Wanda根据权重与适当输入激活的乘积如何进行修剪最小幅度的权重,并且权重独立地针对每个模型输出进行评估,因为这种修剪是基于逐个输出进行的。

Wanda在不需要重新训练或更新权重的情况下运行良好,并且已经应用于推理中。研究发现,LLMs的隐藏状态特征中只有极小部分具有异常大的幅度,这是这些模型的一个奇特特征。基于这一发现,团队发现将输入激活添加到传统的权重幅度剪枝度量中,使得评估权重重要性出奇地准确。

研究团队使用最成功的开源LLM系列LLaMA对Wanda进行了实证评估。结果表明,Wanda能够在不需要重新训练或更新权重的情况下,直接从预训练的LLMs中成功识别出高效的稀疏网络。它在计算成本较低的情况下胜过了幅度剪枝,并且在性能上与SparseGPT相匹配或超过了SparseGPT,这是一种最近提出的针对大规模GPT系列模型的准确修剪方法。

总之,Wanda似乎是解决修剪LLMs挑战的一种有前途的方法,并为进一步探索理解LLMs中的稀疏性提供了基准。通过修剪技术改进LLMs的效率和可访问性,可以继续推动自然语言处理领域的发展,并使这些强大的模型变得更加实用和广泛适用。