英特尔研究人员提出一种新的人工智能方法,可以更高效地在CPU上部署LLM

英特尔研究人员创新性提出高效部署LLM于CPU的新人工智能方法

大型语言模型(LLMs)因其出色的性能和潜力在各种任务中广受关注。它们最为人们熟知的是其在文本生成、语言理解、文本摘要等方面的能力。然而,广泛应用这些模型的一个不足之处是它们庞大的模型参数规模,需要大量的存储容量和专用硬件来进行推理。因此,部署这些模型一直是一个巨大的挑战。

降低推理所需的计算能力的一种方法是使用量化方法,即减少人工神经网络的权重和激活函数的精度。INT8和仅权重量化是改进推理成本的几种方法。但是,这些方法通常针对CUDA进行优化,可能不适用于CPU。

英特尔的研究人员提出了一种在CPU上高效部署LLMs的有效方法。他们的方法支持自动的INT-4仅权重量化(只对模型权重应用低精度,而激活函数的精度保持高)流程。他们还设计了一个特定的LLM运行时,其中包含高度优化的内核,可以加速CPU上的推理过程。

该量化流程是基于英特尔神经压缩器开发的,并允许调整不同的量化方案、细粒度和组大小,以生成满足准确性目标的INT4模型。然后将模型传递给LLM运行时,这是一个专门设计用于评估量化模型性能的环境。该运行时已经被设计成在CPU上提供高效的LLMs推理。

在实验中,研究人员选择了一些具有不同参数规模(从7B到20B)的热门LLMs,并使用开源数据集评估了FP32和INT4模型的性能。他们观察到,量化模型在所选数据集上的准确性几乎与FP32模型相当。此外,他们对下一个令牌生成的延迟进行了比较分析,发现LLM运行时的性能优于ggml解决方案多达1.6倍。

总之,这篇研究论文提出了解决LLMs中一个最大挑战的解决方案,即在CPU上进行推理。传统上,这些模型需要像GPU这样的专用硬件,这使得它们对许多组织来说不可及。该论文提出了INT4模型量化以及专门的LLM运行时,以在CPU上高效推理LLMs。在一组热门LLMs上进行评估时,该方法表现出优于基于ggml的解决方案,并且与FP32模型相当的准确性。然而,还有进一步改进的空间,研究人员计划在个人计算机上提供强大的生成式人工智能,以满足对人工智能生成内容的不断增长的需求。