“使用文本生成推理从您的计算机为大型语言模型提供服务”
Text generation inference for large language models using your computer
使用Falcon-7B的说明版本的示例
现在,通过诸如QLoRa和GPTQ等量化方法,可以在消费级硬件上本地运行非常大的语言模型(LLM)。
考虑到加载LLM需要多长时间,我们可能还希望将LLM保留在内存中以查询它,并立即获得结果。如果您使用具有标准推理流程的LLM,则必须每次重新加载模型。如果模型非常大,您可能需要等待几分钟才能生成输出。
有各种框架可以在服务器上(本地或远程)托管LLM。在我的博客上,我已经介绍了Triton推理服务器,它是由NVIDIA开发的一个非常优化的框架,用于为多个LLM提供服务并平衡GPU的负载。但是,如果您只有一个GPU,并且想在计算机上托管模型,则使用Triton推理可能不合适。
在本文中,我介绍了一种称为文本生成推理的替代方法。这是一个更简单的框架,实现了在消费级硬件上运行和提供LLM所需的最低功能。
阅读完本文后,您将在计算机上拥有一个本地部署并等待查询的聊天模型/LLM。
文本生成推理
文本生成推理(TGI)是一个用于部署和提供LLM的Rust和Python框架。它由Hugging Face开发,并带有Apache 2.0许可证。Hugging Face将其用于生产环境以支持其推理小部件。
尽管TGI经过了对A100 GPU的优化,但我发现TGI非常适合在消费级硬件上(如RTX GPU)自托管LLM,这要归功于其对量化和分页注意力的支持。然而,它需要特殊的安装来支持RTX GPU,我将在本文后面详细介绍。
最近,我还发现Hugging Face正在优化一些LLM架构,以使它们在TGI下运行更快。
这尤其适用于Falcon模型,当使用标准推理流程运行时,它们相对较慢,但速度更快…