“使用文本生成推理从您的计算机为大型语言模型提供服务”

Text generation inference for large language models using your computer

现在，通过诸如QLoRa和GPTQ等量化方法，可以在消费级硬件上本地运行非常大的语言模型（LLM）。

考虑到加载LLM需要多长时间，我们可能还希望将LLM保留在内存中以查询它，并立即获得结果。如果您使用具有标准推理流程的LLM，则必须每次重新加载模型。如果模型非常大，您可能需要等待几分钟才能生成输出。

有各种框架可以在服务器上（本地或远程）托管LLM。在我的博客上，我已经介绍了Triton推理服务器，它是由NVIDIA开发的一个非常优化的框架，用于为多个LLM提供服务并平衡GPU的负载。但是，如果您只有一个GPU，并且想在计算机上托管模型，则使用Triton推理可能不合适。

在本文中，我介绍了一种称为文本生成推理的替代方法。这是一个更简单的框架，实现了在消费级硬件上运行和提供LLM所需的最低功能。

阅读完本文后，您将在计算机上拥有一个本地部署并等待查询的聊天模型/LLM。

文本生成推理（TGI）是一个用于部署和提供LLM的Rust和Python框架。它由Hugging Face开发，并带有Apache 2.0许可证。Hugging Face将其用于生产环境以支持其推理小部件。

尽管TGI经过了对A100 GPU的优化，但我发现TGI非常适合在消费级硬件上（如RTX GPU）自托管LLM，这要归功于其对量化和分页注意力的支持。然而，它需要特殊的安装来支持RTX GPU，我将在本文后面详细介绍。

最近，我还发现Hugging Face正在优化一些LLM架构，以使它们在TGI下运行更快。

这尤其适用于Falcon模型，当使用标准推理流程运行时，它们相对较慢，但速度更快…