结识TensorRT-LLM:一款在NVIDIA Tensor Core GPU上加速和优化最新LLM推理性能的开源库

介绍TensorRT-LLM:一款加速和优化最新LLM推理性能的开源库,适用于NVIDIA Tensor Core GPU

人工智能(AI)大型语言模型(LLMs)可以生成文本,翻译语言,写各种形式的创意材料,并为您的问题提供有用的答案。然而,LLMs存在一些问题,例如它们是基于可能包含偏见的大量文本和代码数据集进行训练。LLMs产生的结果可能反映这些偏见,强化负面刻板印象并传播虚假信息。有时,LLMs会产生没有依据的写作。这些经历被称为幻觉。阅读幻觉文字可能导致误解和错误推断。了解LLMs内部运作的原理需要付出努力。这可能在需要开放和负责任的环境中引发问题,例如医疗和金融领域。训练和部署LLMs需要大量的计算能力。这可能使许多小型公司和非营利组织无法访问。垃圾邮件、钓鱼邮件和虚假新闻都是使用LLMs生成的错误信息的示例。由于这个原因,用户和企业都可能面临危险。

NVIDIA的研究人员与Meta、Anyscale、Cohere、Deci、Grammarly、Mistral AI、MosaicML(现已成为Databricks的一部分)、OctoML、Tabnine和Together AI等行业领先公司合作,加快和完善LLM推理。这些增强功能将包含在即将发布的开源NVIDIA TensorRT-LLM软件版本中。TensorRT-LLM是一个深度学习编译器,利用NVIDIA GPU提供最先进的性能,得益于其优化的内核、预处理和后处理阶段以及多GPU/多节点通信原语。开发人员可以在无需深入了解C++或NVIDIA CUDA的情况下尝试新的LLMs,提供一流的性能和快速的定制选项。通过其开源的模块化Python API,TensorRT-LLM简化了定义、优化和执行新架构和改进的过程,随着LLMs的发展,这变得简单。

通过利用NVIDIA最新的数据中心GPU,TensorRT-LLM希望大大提高LLM吞吐量同时降低成本。对于在生产中创建、优化和运行LLMs进行推理,它提供了一个简单、开源的Python API,封装了TensorRT深度学习编译器、来自FasterTransformer的优化内核、预处理和后处理以及多GPU/多节点通信。

TensorRT-LLM允许更多种类的LLM应用。现在我们有了像Meta的Llama 2和Falcon 180B这样的700亿参数模型,传统的模板方法已不再实用。这类模型的实时性能通常取决于多GPU配置和复杂的协调。TensorRT-LLM通过提供在设备之间分配权重矩阵的张量并行性来简化此过程,消除了开发人员手动分割和重新排列的需求。

另一个值得注意的特性是适应LLM应用典型的极度波动的工作负载的在途批处理优化。这个功能实现了动态并行执行,最大限度地利用GPU用于诸如聊天机器人中的问答交互和文档摘要等任务。鉴于人工智能实施的规模和范围不断增大,企业可以预期降低总拥有成本(TCO)。

在性能方面的结果令人震惊。使用NVIDIA H100与A100相比,使用TensorRT-LLM在诸如文章摘要等任务中的性能显示出8倍的增益。

图1. GPT-J-6B A100与使用和不使用TensorRT-LLM的H100 | 文本摘要,可变I/O长度,CNN / DailyMail数据集 | A100 FP16 PyTorch eager模式 | H100 FP8 | H100 FP8,在途批处理,TensorRT-LLM | 图片来源:https://developer.nvidia.com/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/

TensorRT-LLM 可以使得在最近由 Meta 发布并被许多企业用于实现生成式人工智能的 Llama 2 上,与 A100 GPU 相比,推理性能提高了 4.6 倍。

图 2. Llama 2 70B,A100 与 H100 在使用和不使用 TensorRT-LLM 时的比较 | 文本摘要,可变输入/输出长度,CNN / DailyMail 数据集 | A100 FP16 PyTorch eager 模式 | H100 FP8 | H100 FP8,中途批处理,TensorRT-LLM | 图片来源:https://developer.nvidia.com/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/

总而言之,LLM 正在快速发展。每天都会有新的模型设计加入不断扩大的生态系统中。因此,更大的模型开辟了新的可能性和用途,提升了各个行业的采用率。由于 LLM 推理的发展,数据中心正在演变。由于更高的性能和更高的精度,企业的总体拥有成本得到了改善。通过模型的变化,客户体验得到了提升,从而增加了销售和利润。在规划推理部署计划时,还有许多其他因素需要考虑,以充分利用最先进的 LLM。优化很少是自动发生的。用户在进行微调时,应考虑并行性、端到端流水线和复杂的调度方法。他们需要一台能够处理不同精度数据的计算机系统,而不会丧失准确性。TensorRT-LLM 是一种简单易用的开源 Python API,用于创建、优化和运行用于推理的 LLM。它具有 TensorRT 的深度学习编译器、优化内核、预处理和后处理以及多 GPU/多节点通信的功能。