“NVIDIA Grace Hopper超级芯片在MLPerf推理基准测试中占据主导地位”

NVIDIA Grace Hopper芯片在MLPerf推理基准测试中主导

在MLPerf行业基准测试中,NVIDIA GH200 Grace Hopper Superchip通过了所有数据中心推理测试,扩展了NVIDIA H100 Tensor Core GPU的领先性能。

总体结果显示了NVIDIA AI平台在从云端到网络边缘的卓越性能和多功能性。

此外,NVIDIA宣布了推理软件,将为用户提供性能、能源效率和总拥有成本的飞跃。

GH200 Superchip在MLPerf中表现出色

GH200将Hopper GPU和Grace CPU连接在一个超级芯片中。这种组合提供了更多的内存、带宽,并且可以自动在CPU和GPU之间转移功率以优化性能。

另外,NVIDIA HGX H100系统装配了八个H100 GPU,在本轮测试中在每个MLPerf推理测试中提供了最高的吞吐量。

Grace Hopper Superchips和H100 GPU在MLPerf的所有数据中心测试中都表现出色,包括计算机视觉、语音识别和医学成像的推理,以及用于生成式人工智能中的推荐系统和大型语言模型(LLMs)等更具挑战性的用例。

总体而言,自2018年MLPerf基准测试推出以来,NVIDIA在AI训练和推理方面一直展示出卓越的性能领先。

最新的MLPerf测试包括对推荐系统的更新测试,以及对GPT-J的首个推理基准测试,GPT-J是一个具有60亿参数的LLM,这是衡量AI模型规模的一个粗略指标。

TensorRT-LLM提升推理性能

为了处理各种复杂的工作负载,NVIDIA开发了TensorRT-LLM,一种优化推理的生成式人工智能软件。这个开源库在8月提交MLPerf时还没有准备好,它使用户可以在无需额外费用的情况下将已购买的H100 GPU的推理性能提高一倍以上。

NVIDIA的内部测试显示,使用TensorRT-LLM在H100 GPU上,与先前一代未使用该软件的GPU相比,推理性能提高了多达8倍。

这个软件起初是在与Meta、AnyScale、Cohere、Deci、Grammarly、Mistral AI、MosaicML(现已并入Databricks)、OctoML、Tabnine和Together AI等领先公司合作加速和优化LLM推理时开发的。

MosaicML在TensorRT-LLM之上添加了所需的功能,并将其整合到现有的服务堆栈中。Databricks的工程副总裁Naveen Rao表示:“这是一次绝佳的体验。”

“TensorRT-LLM易于使用、功能丰富且高效,”Rao说道。“它使用NVIDIA GPU提供了最先进的LLM服务性能,并使我们能够将成本节约传递给我们的客户。”

TensorRT-LLM是NVIDIA全套AI平台持续创新的最新示例。这些持续的软件进步为用户提供了随着时间推移性能不断提升且无需额外费用的功能,适用于各种不同的AI工作负载。

L4提升主流服务器的推理性能

在最新的MLPerf基准测试中,NVIDIA L4 GPU在各种工作负载上都表现出色。

例如,以紧凑型、72W的PCIe加速器形式运行的L4 GPU性能比功耗几乎高5倍的CPU高出多达6倍。

此外,L4 GPU配备了专用的媒体引擎,与CUDA软件结合使用,在NVIDIA的测试中为计算机视觉提供高达120倍的加速。

L4 GPU可在Google Cloud和许多系统构建商处获得,并为从消费互联网服务到药物研发等各行各业的客户提供服务。

边缘性能提升

此外,NVIDIA还应用了新的模型压缩技术,展示了在L4 GPU上运行BERT LLM时高达4.7倍的性能提升。这个结果是在MLPerf的所谓“开放赛”中得出的,这是一个展示新能力的类别。

这种技术预计将在所有AI工作负载中得到应用。特别是在运行受尺寸和功耗限制的边缘设备上运行模型时,它尤其有价值。

在边缘计算领域的另一个领导示例中,NVIDIA Jetson Orin系统级模块在目标检测方面的性能比上一轮提高了高达84%,目标检测是边缘人工智能和机器人技术常见的计算机视觉应用案例。

Jetson Orin的进步来自于软件利用芯片最新版本的核心,如可编程视觉加速器、NVIDIA Ampere架构GPU和专用深度学习加速器。

多功能性能,广泛生态系统

MLPerf基准测试是透明和客观的,因此用户可以依靠其结果做出明智的购买决策。它们还涵盖了广泛的用例和场景,因此用户知道他们可以获得可靠且灵活部署的性能。

在此轮中提交的合作伙伴包括云服务提供商Microsoft Azure和Oracle Cloud Infrastructure,以及ASUS、Connect Tech、Dell Technologies、Fujitsu、GIGABYTE、惠普企业、联想、QCT和Supermicro等系统制造商。

总体而言,MLPerf得到了包括阿里巴巴、Arm、思科、谷歌、哈佛大学、英特尔、Meta、微软和多伦多大学在内的70多个组织的支持。

阅读技术博客以获取有关NVIDIA如何实现最新结果的更多详细信息。

NVIDIA基准测试中使用的所有软件均可在MLPerf存储库中获得,因此每个人都可以获得相同的世界级结果。这些优化不断融入到NVIDIA NGC软件中心的GPU应用容器中。