康奈尔大学的研究人员引入量化与不相关处理(QuIP):一种基于量化受益于不相关权重和黑塞矩阵的新的人工智能方法
康奈尔大学研究人员引入了一种新的人工智能方法,叫做量化与不相关处理(QuIP),该方法基于量化、不相关权重和黑塞矩阵
通过大型语言模型 (LLM),在文本生成、少样本学习、推理和蛋白质序列建模等领域取得了进展。由于其巨大的规模,这些模型可能具有数千亿的参数,需要复杂的部署策略,并激发了对高效推理技术的研究。
康奈尔大学的新研究在训练后将LLM参数量化,以提高在实际场景中的性能。他们的关键观点是,在权重和代理Hessian矩阵不相干时,将权重自适应地舍入为一组有限压缩值更容易。直观上讲,这是因为权重本身以及需要具有良好舍入精度的方向在任何一个坐标上都不会太大。
基于这一观点,研究人员创建了两位数量化技术,既在理论上具有可靠性,又可扩展到LLM规模的模型。基于这一认识,他们提供了一种名为“具有不相干处理的量化 (QuIP)”的新技术。
QuIP分为两个阶段:
- 通过将Hessian矩阵与随机正交矩阵的Kronecker积相乘,实现了有效的预处理和后处理,确保Hessian矩阵不相干。
- 通过使用Hessian的估计值最小化原始权重和量化权重之间的误差的二次代理目标,实现自适应舍入过程。“不相干处理”指的是所提出方法的初始处理阶段和最终处理阶段。
除了他们的实际实施外,他们还提供了一项理论研究,这是第一次针对可以扩展到LLM规模的量化算法进行的研究,探究了不相干性的影响,并展示了相对于广泛的舍入技术类别,量化过程的优越性。该研究还首次对OPTQ进行了理论分析,表明不具有不相干处理的QuIP实现了该方法的更高效实现。
实证结果表明,不相干处理显著增强了大型模型的量化能力,特别是在较高的压缩率下,并且成为首个仅使用每个权重两位的LLM量化方法能够获得可用结果的方法。对于大型LLM规模(> 20亿参数),2位和4位压缩之间存在较小差距,并且随着模型规模的增加,这些差距进一步缩小,这表明在LLM中可能实现准确的2位推理。
代理目标未考虑变压器块之间甚至块内层之间的相互作用。团队表示,目前尚不清楚在这个规模下包含这种相互作用的益处以及是否值得计算代价。