考试得分:NVIDIA在MLPerf基准测试中加速生成AI训练.
考试成绩:NVIDIA在MLPerf基准测试中以更快速度推动AI训练生成.
NVIDIA的AI平台在最新的MLPerf行业基准测试中提升了AI训练和高性能计算的水平。
在众多新记录和里程碑中,一项在生成式AI领域的成就引人注目:NVIDIA Eos,一台由10752个NVIDIA H100 Tensor Core GPU和NVIDIA Quantum-2 InfiniBand网络支持的AI超级计算机,仅用了3.9分钟完成了基于GPT-3模型、具有1750亿个参数和10亿个标记的训练基准。
与不到六个月前推出时创下的10.9分钟相比,这几乎相当于三倍的提速。
这个基准测试使用的是知名的ChatGPT服务背后的GPT-3数据集的一部分,通过推算,Eos现在可以在仅八天内完成训练,比以前使用512个A100 GPU的最先进系统快73倍。
训练时间的加速降低了成本,节省了能源,并加快了上市时间。这种高标准的大语言模型训练使得这些模型得以广泛应用,每个业务都可以通过NVIDIA NeMo这样的工具来采用自定义的LLMs。
在最新的生成式AI测试中,1024台NVIDIA Hopper架构的GPU在2.5分钟内完成了一个基于Stable Diffusion文本到图像模型的训练基准,为这项新工作负载设置了很高的门槛。
通过采用这两个测试,MLPerf进一步巩固了其作为衡量AI性能的行业标准的领导地位,因为生成式AI是当今最具变革性的技术。
系统规模激增
最新结果部分归功于将最多加速器应用于MLPerf基准测试。10752个H100 GPU远远超过了今年6月NVIDIA使用的3584个Hopper GPU进行的AI训练规模。
GPU数量的3倍扩展带来了2.8倍的性能提升,其中93%的效率得益于软件优化。
在生成式AI中,高效的扩展是一个重要的要求,因为LLMs每年以数量级的增长。最新的结果展示了NVIDIA在应对全球最大数据中心的前所未有的挑战方面的能力。
这一成就得益于加速器、系统和软件创新的全面平台,Eos和Microsoft Azure在最新一轮中都采用了这一平台。
Eos和Azure分别使用了10,752个H100 GPU进行提交。它们的性能相差不超过2%,展示了NVIDIA AI在数据中心和公共云部署中的高效性。
NVIDIA依赖Eos完成各种关键工作。它帮助推动像NVIDIA DLSS这样的倡议,这是用于最先进计算机图形的AI驱动软件,以及像ChipNeMo这样的NVIDIA研究项目,这些生成式AI工具有助于设计下一代GPU。
全工作负载的进展
NVIDIA在本轮测试中刷新了多项纪录,同时在生成式AI方面取得了进展。
例如,H100 GPU相较于上一轮广泛使用的推荐模型,其训练速度提高了1.6倍,用于帮助用户在线找到所需信息。在计算机视觉模型RetinaNet上,性能提升了1.8倍。
这些提升源于软件和硬件的共同进步。
NVIDIA再次是唯一一家在所有MLPerf测试中都全线参与的公司。在九项基准测试中,H100 GPU展现出了最快的性能和最大的扩展能力。
加速能够实现更快的上市时间,降低成本,为用户训练大型LLM或使用NeMo等框架自定义模型以满足其业务的特定需求带来节能和成本节约。
本轮共有11家系统制造商在其提交中使用了NVIDIA AI平台,包括ASUS、戴尔技术、富士通、技嘉、联想、QCT和超微。
NVIDIA的合作伙伴参与MLPerf测试,因为他们知道这是客户评估AI平台和供应商的有价值工具。
HPC基准的扩展
在MLPerf HPC中,针对超级计算机上的AI辅助模拟的独立基准测试中,H100 GPU在上一轮HPC测试中提供的性能是NVIDIA A100 Tensor Core GPU的两倍。这些结果相较于2019年的首个MLPerf HPC基准测试,获得了高达16倍的提速。
该基准中包括一个新的测试项目,训练OpenFold模型,该模型可以根据蛋白质的氨基酸序列预测蛋白质的三维结构。OpenFold可以在几分钟内完成对于医疗保健领域至关重要的工作,而以前研究人员需要花费数周甚至数月的时间。
了解蛋白质的结构对于快速发现有效药物至关重要,因为大多数药物的作用对象是蛋白质,而蛋白质是控制许多生物过程的细胞机器。
在MLPerf HPC测试中,H100 GPU完成了OpenFold的训练,仅用时7.5分钟。OpenFold测试是整个AlphaFold训练过程的代表性部分,两年前使用128个加速器需要11天才能完成。
OpenFold模型的一个版本以及NVIDIA用于训练该模型的软件将很快在NVIDIA BioNeMo中提供,该平台是用于药物研发的生成式AI平台。
本轮在NVIDIA AI平台上有几个合作伙伴进行了提交,其中包括Dell Technologies以及Clemson大学、德克萨斯高级计算中心,以及在Hewlett Packard Enterprise (HPE)的协助下,劳伦斯伯克利国家实验室的超级计算中心。
广泛支持的基准测试
自2018年5月创立以来,MLPerf基准测试得到了工业界和学术界的广泛支持。支持这些测试的机构包括亚马逊、Arm、百度、谷歌、哈佛大学、HPE、英特尔、联想、Meta、微软、NVIDIA、斯坦福大学和多伦多大学。
MLPerf测试是透明而客观的,因此用户可以依靠测试结果作出明智的购买决策。
NVIDIA使用的所有软件都可以从MLPerf存储库中获取,因此所有开发人员都可以获得相同的世界级结果。这些软件优化不断融入到可在NGC上获得的容器中,NGC是NVIDIA用于GPU应用程序的软件中心。