了解 SpQR(Sparse-Quantized Representation):一种压缩格式和量化技术,可实现接近无损的大语言模型权重压缩

大型语言模型(LLM)最近展示了令人难以置信的能力。这些模型从海量数据中学习,包括类似人类的文本内容生成、问答、代码完成、文本摘要、高技能虚拟助手的创建等,已经执行了具有惊人应用的任务。虽然LLM表现出色,但现在已经开始转向开发更多数据训练的较小模型。与较大的模型相比,较小的模型需要更少的计算资源;例如,拥有70亿参数并训练了1万亿个标记的LLaMA模型,尽管比大得多的GPT-3模型小25倍,但产生的结果比后者好25倍。

将LLM压缩以适应内存受限设备、笔记本电脑和手机等,伴随着一些挑战,例如在具有10亿到100亿个参数的模型中进行3到4位量化技术时的准确度降低等。这些限制是由于LLM生成的顺序性质所致,其中小错误可能会累积,导致严重受损的输出。为了避免这种情况,设计不会降低预测性能的低位宽量化方法非常重要,这是克服准确性限制的关键。

为了克服准确性限制,一组研究人员推出了Sparse-Quantized Representation(SpQR),这是一种压缩格式和量化技术。这种混合稀疏-量化格式使得精确的预训练LLM几乎可以以每个参数3-4位的比特率进行无损压缩。这是第一种量化权重技术,可以实现这样的压缩比,并且与密集基线相比,其端到端的准确度误差小于1%,如使用困惑度进行评估。

SpQR利用两种方式。首先,它开始定位异常值权重,这些权重在量化时会产生过高的误差,并将这些权重存储在高精度中,而其余权重则以更低的格式存储,通常为3位。其次,SpQR采用了一种具有非常小组大小(例如,16个连续元素)的分组量化变体,甚至量化比例本身也可以用3位格式表示。

为将预训练的LLM转换为SpQR格式,该团队采用了后训练量化(PTQ)方法的扩展版本,该方法受GPTQ的启发,通过未压缩的模型传递校准数据。SpQR允许在单个24 GB消费者GPU上运行330亿个参数的LLM,而不会出现任何性能下降,并在4.75位时提供15%的加速。这使得消费者可以使用强大的LLM而不会遭受任何性能惩罚。

SpQR提供了编码和解码权重的有效方法,使其在运行时最大化SpQR内存压缩优势。还为SpQR创建了一个强大的GPU推理算法,可实现比16位基线更快的推理速度,同时保持可比较的准确性水平。因此,SpQR提供了超过4倍的内存压缩优势,非常适用于内存受限设备。总之,SpQR似乎是一种有前途的技术,因为它有效地解决了LLM低位量化中与准确度损失相关的挑战。