使用Nvidia Triton推理服务器部署PyTorch模型

使用Nvidia Triton推理服务器部署PyTorch模型' can be condensed to '使用Nvidia Triton部署PyTorch模型'.

一个灵活高性能的模型服务解决方案

来自Unsplash的图片

当我们到达模型托管和推理时,机器学习(ML)的价值在真实世界应用中得到了真正的认可。如果您没有一个高性能的模型服务解决方案来帮助您的模型进行伸缩,那么将ML工作负载投入到生产环境中将会很困难。

什么是模型服务器/模型服务是什么? 在ML世界中,将模型服务器视为与Web服务器相当。仅仅为模型提供大量的硬件是不够的,您需要一个通信层来帮助处理客户端的请求,并有效地分配所需的硬件来处理您的应用程序正在处理的流量。模型服务器对用户来说是可调整的功能:我们可以通过控制gRPC与REST等方面来从延迟的角度提高性能。常见的模型服务器示例包括以下内容:

  • TensorFlow Serving
  • TorchServe
  • Multi-Model Server (MMS)
  • Deep Java Library (DJL)

今天我们要探索的是Nvidia Triton推理服务器,一个高度灵活和高性能的模型服务解决方案。每个模型服务器都需要以其独特的方式呈现模型部件和推理脚本,以便它能够理解。在今天的文章中,我们将使用一个示例PyTorch模型,并展示如何利用Triton推理服务器进行托管。

注意:本文假设您具有关于机器学习的基本了解,并且不涉及任何模型构建背后的理论。还假设您具有Python的熟练使用能力和对Docker容器的基本理解。我们还将在SageMaker经典笔记本实例中进行开发工作,因此如果需要,请创建一个AWS账户(如果您愿意,您也可以在其他地方运行此示例)。

免责声明:我是AWS的机器学习架构师,这些观点仅代表我个人的观点。

为什么选择Triton推理服务器?

Triton推理服务器是一个开源的模型服务解决方案,具有多种优势,包括以下方面:

  1. 框架支持:Triton原生支持多种…