麻省理工学院洛厄尔分校的研究人员提出了ReLoRA:一种新的人工智能方法,该方法使用低秩更新进行高秩训练
Researchers at MIT Lowell proposed ReLoRA a new AI method that uses low-rank updates for high-rank training.
在过去的十年中,训练更大和超参数化网络,或者“堆叠更多层”的策略,已经成为机器学习中的常态。随着“大型网络”的门槛从1亿个参数增加到数千亿个参数,大多数研究组发现训练这样的网络所需的计算开销过高,无法合理地予以证明。尽管如此,对于需要训练具有比训练实例更多数量级参数的模型的需求缺乏理论理解。
更高效的计算缩放最优化、检索增强模型以及训练更小的模型更长时间的直接策略,都提供了新的有趣的权衡作为缩放的替代方法。然而,它们很少使这些模型的训练民主化,并且无助于我们理解为什么需要超参数化模型。
根据最近的许多研究,训练并不需要超参数化。经验证据支持“彩票票据假设”,即在初始化(或早期训练)的某一点上,存在着可以训练出整个网络性能的孤立子网络(中奖票)。
- 自动化机器学习任务:MLCopilot如何利用LLMs帮助开发者简化机器学习流程
- 语言领域中突破性和开源的对话人工智能模型列表
- 来自哥伦比亚大学和DeepMind的研究人员介绍了GPAT:一种基于Transformer的模型架构,通过推断每个部位的形状与目标形状相对应,准确预测部位姿态
麻省大学洛厄尔分校的最新研究引入了ReLoRA来解决这个问题,它利用和的秩的特性来训练高秩网络,并进行一系列低秩更新。他们的研究结果表明,ReLoRA能够进行高秩更新,并且提供与标准神经网络训练相媲美的结果。ReLoRA使用了类似于彩票票据假设的全秩训练的热启动和倒带。通过添加合并和重置(重新启动)方法、不规则的学习率调度器和部分优化器重置,提高了ReLoRA的效率,并使其更接近全秩训练,特别是在大型网络中。
他们使用了3.5亿参数的Transformer语言模型对ReLoRA进行了测试。在测试中,他们专注于自回归语言建模,因为它已被证明适用于广泛的神经网络应用。结果显示,ReLoRA的效果随着模型规模的增大而增强,这表明它可能是训练具有数十亿参数的网络的良好选择。
对于训练大型语言模型和神经网络,研究人员认为开发低秩训练方法在提高训练效率方面具有重要的潜力。他们相信,通过低秩训练,可以更多地了解神经网络如何通过梯度下降进行训练以及它们在超参数化领域中的显著泛化能力,这有望对深度学习理论的发展做出重要贡献。