微软必应利用NVIDIA Triton提升广告交付速度

陈久生的团队刚刚获得了加速。

他们利用NVIDIA Triton推理服务器在NVIDIA A100 Tensor Core GPU上运行,以降低成本向Microsoft Bing的用户提供个性化广告,吞吐量提高了7倍,这是这位首席软件工程经理及其团队的惊人成就。

调整复杂系统

Bing的广告服务使用数百个不断发展的模型。每个模型必须在不到10毫秒的时间内响应请求,大约比眨眼睛快10倍。

最新的速度提升始于团队推出的两个创新,以使AI模型更快地运行:Bang和EL-Attention。

它们共同应用复杂的技术,在更少的时间和更少的计算机内存中完成更多的工作。模型培训是基于Azure Machine Learning进行的,以提高效率。

搭载NVIDIA A100 MIG飞行

接下来,该团队将广告服务从NVIDIA T4升级到A100 GPU。

后者的多实例GPU(MIG)功能允许用户将一个GPU分成几个实例。

陈的团队最大化了MIG功能,将一个物理A100转换为七个独立的实例。这让团队在每个GPU上获得了7倍的吞吐量,推理响应时间为10毫秒。

灵活、易用、开放的软件

Triton的部分特性使得这种转换成为可能,因为它允许用户在单个GPU的隔离实例上同时运行不同的运行时软件、框架和AI模式。

推理软件以软件容器的形式提供,因此易于部署。并且开源的Triton,也可通过NVIDIA AI Enterprise提供企业级安全性和支持,得到社区的支持,随着时间的推移使软件变得更好。

利用Triton和A100 GPU加速Bing的广告系统是陈久生喜欢他的工作的一个例子。他可以见证AI的突破。

虽然情景经常改变,但团队的目标仍然是相同的——为用户和广告商创造胜利。