将Llama 2的延迟和吞吐性能提高4倍

Increase the latency and throughput performance of Llama 2 by 4 times.

Llama-2 13B的真实世界基准测试

作者提供的图片 - 使用稳定扩散创建

介绍

在大型语言模型(LLM)领域,将这些先进系统集成到实际企业应用程序中是一个迫切的需求。然而,生成式人工智能的发展速度如此之快,以至于大多数人无法跟上这些进展。

其中一种解决方案是使用像OpenAI提供的托管服务这样的服务。这些托管服务提供了一种简化的解决方案,但对于那些缺乏此类服务访问权限或将安全和隐私因素放在首位的人来说,另一种选择出现了:开源工具。

开源生成式人工智能工具目前非常受欢迎,公司们正竞相推出其基于人工智能的应用程序。在试图快速构建的同时,公司们往往忘记了,为了真正从生成式人工智能中获得价值,他们需要构建“生产就绪”的应用程序,而不仅仅是原型。

在本文中,我想向您展示使用两种不同推理方法的Llama 2的性能差异。第一种推理方法是通过Fast API提供的容器化Llama 2模型进行服务,这是开发人员在提供模型作为REST API端点时的流行选择。第二种方法是通过文本生成推理进行服务的相同容器化模型,这是由Hugging Face开发的开源库,可以轻松部署LLM。

我们所看到的两种方法都适用于实际的商业或应用场景。但重要的是要意识到它们的可扩展性不同。我们将深入比较它们的性能,并更好地了解它们之间的差异。

OpenAI和Cohere支持LLM推理的动力

您是否曾想过为什么ChatGPT如此快速?

大型语言模型需要大量的计算资源,并且由于其巨大的规模,它们往往需要多个GPU。当使用大型GPU集群时,公司必须非常注意它们的计算资源如何被利用。

像OpenAI这样的LLM提供商运行大型GPU集群来为其模型提供推理能力。为了充分利用这些集群的计算能力…