了解 SpQR（Sparse-Quantized Representation）：一种压缩格式和量化技术，可实现接近无损的大语言模型权重压缩

大型语言模型（LLM）最近展示了令人难以置信的能力。这些模型从海量数据中学习，包括类似人类的文本内容生成、问答、代码完成、文本摘要、高技能虚拟助手的创建等，已经执行了具有惊人应用的任务。虽然LLM表现出色，但现在已经开始转向开发更多数据训练的较小模型。与较大的模型相比，较小的模型需要更少的计算资源；例如，拥有70亿参数并训练了1万亿个标记的LLaMA模型，尽管比大得多的GPT-3模型小25倍，但产生的结果比后者好25倍。

将LLM压缩以适应内存受限设备、笔记本电脑和手机等，伴随着一些挑战，例如在具有10亿到100亿个参数的模型中进行3到4位量化技术时的准确度降低等。这些限制是由于LLM生成的顺序性质所致，其中小错误可能会累积，导致严重受损的输出。为了避免这种情况，设计不会降低预测性能的低位宽量化方法非常重要，这是克服准确性限制的关键。

为了克服准确性限制，一组研究人员推出了Sparse-Quantized Representation（SpQR），这是一种压缩格式和量化技术。这种混合稀疏-量化格式使得精确的预训练LLM几乎可以以每个参数3-4位的比特率进行无损压缩。这是第一种量化权重技术，可以实现这样的压缩比，并且与密集基线相比，其端到端的准确度误差小于1％，如使用困惑度进行评估。

SpQR利用两种方式。首先，它开始定位异常值权重，这些权重在量化时会产生过高的误差，并将这些权重存储在高精度中，而其余权重则以更低的格式存储，通常为3位。其次，SpQR采用了一种具有非常小组大小（例如，16个连续元素）的分组量化变体，甚至量化比例本身也可以用3位格式表示。

为将预训练的LLM转换为SpQR格式，该团队采用了后训练量化（PTQ）方法的扩展版本，该方法受GPTQ的启发，通过未压缩的模型传递校准数据。SpQR允许在单个24 GB消费者GPU上运行330亿个参数的LLM，而不会出现任何性能下降，并在4.75位时提供15％的加速。这使得消费者可以使用强大的LLM而不会遭受任何性能惩罚。

SpQR提供了编码和解码权重的有效方法，使其在运行时最大化SpQR内存压缩优势。还为SpQR创建了一个强大的GPU推理算法，可实现比16位基线更快的推理速度，同时保持可比较的准确性水平。因此，SpQR提供了超过4倍的内存压缩优势，非常适用于内存受限设备。总之，SpQR似乎是一种有前途的技术，因为它有效地解决了LLM低位量化中与准确度损失相关的挑战。

AI Shorts,Applications,Artificial intelligence,Editors Pick,language model,Large Language Model,Machine learning,Staff,Tech News,Technology,Uncategorized

了解 SpQR（Sparse-Quantized Representation）：一种压缩格式和量化技术，可实现接近无损的大语言模型权重压缩

使用SQuID评估多语言语音合成

在Amazon SageMaker上使用Triton托管ML模型：ONNX模型

Zomato 开启了具有开创性的人工智能技术

使用多任务和集成学习来预测阿尔茨海默病的认...

数字文艺复兴：NVIDIA Neuralangelo 研究重建 ...

养鱼初创公司投入人工智能以使水产养殖更高效...

小猪AI新闻，5月17日：Mojo Lang：新编程语言 ...

免费聊天GPT课程：使用OpenAI API编写5个项目

机器学习