由加利福尼亚大学伯克利分校和斯坦福大学的研究团队推出的S-LoRA:一种专为多个LoRA适配器进行可伸缩服务的人工智能系统
加州大学伯克利分校与斯坦福大学联合研发的S-LoRA:为多个LoRA适配器提供可伸缩服务的人工智能系统
加州大学伯克利分校和斯坦福大学的研究人员开发了一种名为低秩适应(LoRA)的新参数高效微调方法,用于部署LLM。S-LoRA旨在实现多个LoRA适配器的高效部署。S-LoRA可以使数千个适配器在单个GPU或多个GPU上以最小的开销运行。该方法引入了统一分页以优化GPU内存使用,利用了新颖的张量并行技术和用于异构批处理的自定义CUDA内核。这些技术显著减少了在现实应用中部署LLM所需的计算需求。
LoRA是一种高效的微调技术,用于定制预训练的LLM以适应新任务,大幅减少可训练参数的数量同时保持高准确性。LoRA被广泛应用,导致了为LLM和扩散模型创建了无数个LoRA适配器。在当今的应用中,LLM广泛应用于各个领域和任务。
现代应用广泛使用LLM,预训练-微调方法导致了为单个基础LLM创建多个微调版本,分别为特定任务或领域定制。LoRA是一种参数高效的微调技术,为新任务专门定制预训练的LLM,大幅减少可训练参数的数量同时保持高准确性。
- 剑桥的研究人员开发了一种使用机器学习的虚拟现实应用程序,使用户能够在虚拟现实中获得超人能力来打开和控制工具
- 元研究人员引入了VR-NeRF:一种用于高保真度捕捉和渲染虚拟现实中可行走空间的先进端到端AI系统
- 这篇AI论文介绍了RuLES:一种新的机器学习框架,用于评估大型语言模型在对抗攻击下的规则遵守情况
S-LoRA利用LoRA高效微调基础模型以适应广泛的任务范围,从单个模型生成大量的LoRA适配器。它引入了统一分页,通过在统一内存池中管理动态适配器权重和KV缓存张量来优化GPU内存使用。S-LoRA可以以最小的开销提供数千个LoRA适配器的服务。该方法可使吞吐量提升四倍,并显著扩大支持的适配器数量,与HuggingFace PEFT和vLLM等领先库相比。
S-LoRA有效地处理同时使用2,000个适配器,开销极低,维持低计算成本。对于少数适配器,其性能优于包装的vLLM最多4倍,对于PEFT而言,最多提高30倍,同时能够容纳更多的适配器数量。S-LoRA在吞吐量和延迟方面优于其变体S-LoRA-bmm和S-LoRA-no-unifymem,凸显了内存池和自定义内核的有效性。该系统的可扩展性主要受可用主存储器的限制,在实际工作负载中表现出强大的性能。S-LoRA的出色能力使其成为将大型语言模型适应于各种任务的强大解决方案。
该研究旨在通过调研量化、稀疏化和改进模型架构等优化方法来提升性能。它探索了在基础模型和适配器中实施分解计算技术,以及开发用于增强支持的自定义CUDA内核。研究还致力于解决LLM服务中的自回归特征和参数高效适配器,力求识别和弥合当前模型服务系统中的优化差距。
总之,S-LoRA引入了统一分页来解决内存碎片化问题,从而增加批处理大小并改善可扩展性。该研究提出了一种可扩展的LoRA服务解决方案,解决了以往未探索的大规模服务微调变体的挑战。该研究通过量化、稀疏化和模型架构增强等算法技术对LoRA服务进行优化,与系统级改进相辅相成。