来自阿姆斯特丹大学和高通人工智能研究团队的研究员们开发了一种名为VeRA的创新微调人工智能方法,与LoRA相比,可以将可训练参数的数量减少10倍

阿姆斯特丹大学和高通人工智能研究团队创新开发VeRA:可将可训练参数减少10倍的微调人工智能方法,超越LoRA

随着自然语言处理应用领域的不断扩展,对能够有效理解和执行特定指令的模型的需求也越来越大,而这些模型要求具备最少的计算复杂度和内存需求。本研究重点讨论了现有方法的局限性,并提出了一种名为VeRA的全新方法,旨在显著优化指令调整过程。

语言模型经常需要在内存和计算需求方面得到帮助,这使得它们在实际应用中效率较低。为了解决这个问题,研究人员介绍了VeRA,一种新颖的方法,使得Llama2 7B模型能够仅使用140万个可训练参数有效地遵循指令。与先前使用的LoRA方法相比,VeRA方法大大减少了模型可训练参数的数量,LoRA方法需要1.599亿个参数,达到了64的级别(参考Dettmers等人的研究)。在保持性能水平的同时大幅降低了参数数量,充分证明了VeRA方法的有效性和潜力。

VeRA方法的成功归功于其全面的微调策略,主要集中在除顶层以外的所有线性层。此外,利用单GPU训练的量化技术和Alpaca数据集的清理版本的使用,对展示了VeRA方法的能力起到了重要作用。研究团队训练了来自Alpaca数据集的一部分(1万个样本),并进行了全面的学习速率扫描,以确保最佳性能。数据选择和训练方法的这种细致入微的方法强调了研究结果的稳健性和可靠性。

在评估阶段,研究团队采用类似于Chiang等人的方法,生成模型对一组80个预定义问题的响应,并使用GPT-4评估这些响应。表4中呈现的结果突出显示了VeRA方法的优异性能,整体得分较常规的LoRA方法更高。这一重大成就凸显了VeRA方法在实现增强的指令遵循能力和保持最佳效率方面的有效性。

VeRA方法的影响不仅局限于其即时应用,还预示着指令调整和语言模型优化的范式转变。通过显著减少可训练参数的数量,VeRA方法有效地解决了应用语言模型中的一个关键瓶颈,为更高效、更易用的AI服务铺平了道路。这一突破对于依赖AI驱动解决方案的各行各业都具有巨大潜力,为各种应用程序的指令调整提供了实用和高效的方法。

总之,VeRA方法的出现代表着语言模型和指令调整方法学的进化中的一个重要里程碑。它的成功证明了可以以最小的计算复杂度和内存需求实现最优性能的可能性。随着对高效和实用的AI解决方案的需求不断增长,VeRA方法证明了人工智能研究不断取得的进展和其在转变各个行业和领域的潜力。研究团队的发现标志着朝着更加易于访问和流畅的AI解决方案的追求迈出了重要的一步,为自然语言处理和指令调整技术的未来创新和发展奠定了基础。