引爆未来:TensorRT-LLM发布加速AI推理性能,为在RTX驱动的Windows 11个人电脑上运行的新模型提供支持

引爆未来:TensorRT-LLM加速AI推理性能,为Windows 11个人电脑提供RTX驱动新模型的支持

Windows 11 PC 上的人工智能标志着科技历史上的一个关键时刻,彻底改变了游戏玩家、创作者、直播者、办公人员、学生甚至普通PC用户的体验。

它为超过1亿台由RTX GPU提供动力的Windows PC和工作站的用户提供了前所未有的提升生产力的机会。并且,NVIDIA RTX 技术使开发人员更轻松地创建AI应用程序,改变人们使用计算机的方式。

在Microsoft Ignite上宣布的新的优化、模型和资源将帮助开发人员更快地提供新的终端用户体验。

即将发布的TensorRT-LLM的更新版本——这是一款增加AI推理性能的开源软件——将支持新的大型语言模型,并使具有8GB VRAM开始的RTX GPU的桌面和笔记本电脑更容易处理复杂的AI工作负荷。

TensorRT-LLM for Windows很快将与OpenAI的受欢迎的Chat API兼容,通过一个新的包装器。这将使数百个开发人员的项目和应用程序可以在PC上与RTX本地运行,而不是在云端——因此用户可以将私有和专有数据保留在Windows 11 PC上。

定制生成式AI需要时间和精力来维护项目。这个过程可能变得非常复杂和耗时,尤其是在尝试在多个环境和平台上进行协作和部署时。

AI Workbench是一个统一而易于使用的工具包,允许开发人员在PC或工作站上快速创建、测试和定制预训练的生成式AI模型和LLMs。它为开发人员提供了一个单一平台来组织他们的AI项目,并将模型调整到特定的用例。

这使得开发人员能够快速创建成本效益高、可扩展的生成式AI模型,实现无缝协作和部署。加入早期访问列表,成为首批获得此增长计划并接收未来更新的人之一。

为了支持AI开发人员,NVIDIA和Microsoft将发布DirectML增强功能,加速两个最受欢迎的基础AI模型:Llama 2和Stable Diffusion。开发人员现在有更多的交叉供应商部署选项,除了设置新的性能标准。

可移植的AI

上个月,NVIDIA宣布了TensorRT-LLM for Windows,这是一个加速LLM推理的库。

下个月稍晚,即将推出的TensorRT-LLM v0.6.0将带来改进后的推理性能——提高了5倍——并支持其他热门的LLM,包括新的Mistral 7B和Nemotron-3 8B。这些LLMs的版本将在任何具有8GB或更多RAM的GeForce RTX 30系列和40系列GPU上运行,使得快速、准确的本地LLM功能即使在一些最便携的Windows设备上也能实现。

TensorRT-LLM V0.6 Windows Perf Chart
新的TensorRT-LLM v0.6.0可提供高达5倍的性能。

即将发布的TensorRT-LLM的新版本可以在/NVIDIA/TensorRT-LLM的GitHub存储库上安装。新的优化模型将在ngc.nvidia.com上提供。

自信对话

全球的开发人员和爱好者使用OpenAI的Chat API进行各种应用——从总结网络内容、起草文件和电子邮件到分析和可视化数据和创建演示文稿。

使用此类基于云的人工智能(AI)的一个挑战是需要用户上传其输入数据,这使得它们在处理私有或专有数据或大型数据集时变得不切实际。

为了解决这个挑战,NVIDIA即将推出支持Windows的TensorRT-LLM,提供类似OpenAI广受欢迎的ChatAPI的API接口,通过一个新的包装器,为开发人员提供类似的工作流程,无论他们是在使用RTX在本地PC上设计模型和应用程序,还是在云中运行。只需改动一两行代码,数百个由AI驱动的开发人员项目和应用程序现在可以从快速、本地的AI中获益。用户可以将数据保存在他们的PC上,不必担心将数据集上传到云端。

最好的部分是,这些项目和应用程序中许多都是开源的,这样开发人员就可以轻松利用它们的功能,以推动在Windows系统上通过RTX驱动的生成AI的采用。

该包装器将与任何已经针对TensorRT-LLM进行优化的LLM(例如Llama 2、Mistral和NV LLM)配合使用,并且作为一个参考项目在GitHub上发布,同时还发布了其他开发人员用于在RTX上处理LLM的资源。

模型加速

开发人员现在可以利用尖端AI模型,并通过跨供应商API进行部署。作为给开发人员提供支持的持续承诺的一部分,NVIDIA和Microsoft一直在合作通过DirectML API加速在RTX上的Llama。

在上个月宣布这些模型的最快推理性能之后,这种新的跨供应商部署选项使得将AI能力带到PC中变得比以往更加容易。

开发人员和爱好者可以通过下载最新的ONNX运行时并按照Microsoft的安装说明进行安装,并安装NVIDIA的最新驱动(将于11月21日发布),来体验最新的优化。

这些新的优化、模型和资源将加速将AI功能和应用程序开发部署到全球1亿台RTX PC上,加入到已经由RTX GPU加速的超过400个合作伙伴提供的AI应用和游戏中。

随着模型的变得更加易于访问和开发人员将更多的生成AI功能带到由RTX驱动的Windows PC上,RTX GPU将成为用户利用这一强大技术的关键。