“认识AutoGPTQ:基于GPTQ算法的易于使用的LLMs量化包,提供用户友好的API”

Introducing AutoGPTQ an easy-to-use LLMs quantization package based on the GPTQ algorithm, with a user-friendly API.

来自Hugging Face的研究人员提出了一种创新解决方案,以应对训练和部署大型语言模型(LLMs)所需的资源密集型需求。他们在Transformers生态系统中新集成的AutoGPTQ库允许用户使用GPTQ算法量化和运行LLMs。

在自然语言处理中,LLMs通过其理解和生成类似人类文本的能力,改变了各个领域。然而,训练和部署这些模型的计算需求带来了重大障碍。为了解决这个问题,研究人员将量化技术GPTQ算法集成到AutoGPTQ库中。这一进展使用户能够在减少的位精度(8位、4位、3位甚至2位)下执行模型,同时保持可忽略的准确性降低和与fp16基线相当的推理速度,特别是对于小批量大小。

GPTQ被归类为后训练量化(PTQ)方法,它优化了内存效率和计算速度之间的权衡。它采用了混合量化方案,其中模型权重被量化为int4,而激活保留为float16。权重在推理过程中动态去量化,实际计算在float16中执行。这种方法通过融合基于内核的去量化和减少的数据通信时间带来了内存节省和潜在的加速。

研究人员通过利用Optimal Brain Quantization(OBQ)框架来解决GPTQ中的逐层压缩挑战。他们开发了优化技术,简化了量化算法,同时保持了模型的准确性。与传统的PTQ方法相比,GPTQ在量化效率方面取得了显著的改进,减少了量化大型模型所需的时间。

与AutoGPTQ库的集成简化了量化过程,使用户可以轻松地利用GPTQ进行各种Transformer架构。通过Transformers库的原生支持,用户可以在不复杂的设置下量化模型。值得注意的是,量化模型在Hugging Face Hub等平台上保留了其序列化和共享性,为更广泛的访问和协作开辟了途径。

这种集成还延伸到了文本生成推理库(TGI),使得GPTQ模型能够在生产环境中高效部署。用户可以在GPTQ的基础上利用动态批处理和其他高级功能,实现最佳资源利用。

尽管AutoGPTQ集成带来了显著的好处,研究人员也承认还有进一步改进的空间。他们强调了提升内核实现和探索涵盖权重和激活的量化技术的潜力。当前的集成重点是LLMs中仅有解码器或编码器架构,限制了其适用性。

总之,Hugging Face的Transformers中集成AutoGPTQ库解决了资源密集型的LLM训练和部署挑战。通过引入GPTQ量化,研究人员提供了一个优化内存消耗和推理速度的高效解决方案。该集成的广泛覆盖和用户友好的界面意味着在不同的GPU架构上实现对量化LLMs的民主化访问迈出了一步。随着这个领域的不断发展,机器学习社区研究人员的协作努力有望进一步推动进步和创新。