遵循黄定律:视频展示工程师如何保持加速前进
遵循黄金法则:视频展示工程师如何保持持续进步
在一次演讲中,NVIDIA首席科学家比尔·达利(Bill Dally)描述了在莫尔(Moore)定律时代后如何提供计算机性能的巨大变革,该演讲现在可在线观看。
他在最近的Hot Chips主题演讲中指出,每个新处理器都需要创造性和努力来发明和验证新鲜的元素。与一代以前的情况完全不同,当时工程师们基本上依赖于物理学来设计越来越小、更快的芯片。
NVIDIA研究部门的300多名成员团队在过去十年中取得了令人惊人的成绩,使AI推断在单个GPU性能方面提高了1000倍(见下图)。
这是一个令人震惊的增长,IEEE Spectrum最早将其命名为“黄氏定律”,以纪念NVIDIA的创始人兼首席执行官黄仁龙。这个名字后来在《华尔街日报》的一篇专栏中得到了普及。
- 认识创造者:机器人学生用NVIDIA Jetson打造自动轮椅
- 一个惊人的突破:开放式人工智能代理 Voyager 自主地玩『我的世界』
- 十月降临,准备迎接近60款新游戏,包括最新的Game Pass游戏云端加入

这次进步是对每年以数量级增长的用于生成AI的大型语言模型的同样惊人的增长的回应。
“这推动了我们在硬件行业中的步伐,因为我们觉得我们必须满足这种需求,”达利说。
在他的演讲中,达利详细阐述了这1000倍增长的因素。
其中最大的提升,为16倍,来自于找到更简化的方法来表示计算机进行计算所使用的数字。
新的数学
NVIDIA Hopper架构,以及其中的Transformer Engine,采用了动态混合的8位和16位浮点和整数数学。它专为当今的生成AI模型的需求而设计。达利详细介绍了这种新数学带来的性能提升和能源节约。
此外,他的团队通过精心设计的高级指令成功实现了12.5倍的飞跃,这些指令告诉GPU如何组织工作。这些复杂的指令帮助以更少的能量执行更多的工作。
因此,计算机可以“像专用加速器一样高效,但仍保留了GPU的可编程性,”他说。
此外,NVIDIA Ampere架构还引入了结构稀疏性,这是一种创新的方法,可以简化AI模型中的权重,而不影响模型的准确性。这种技术带来了额外的2倍性能提升,并承诺未来还会有进一步的改进。
达利介绍了NVLink在系统中的GPU之间以及NVIDIA网络在系统之间的连接,这进一步提升了单个GPU性能的1000倍。
没有免费的午餐
达利指出,尽管在过去的十年中,NVIDIA将GPU从28纳米迁移到了5纳米半导体节点,但该技术只占总增长的2.5倍。
这与一代以前根据莫尔定律进行的计算机设计有着巨大的不同,根据莫尔定律,随着芯片变得越来越小和更快,性能应该每两年翻一番。
这些收益部分是由Denard的缩放所描述,这实际上是一种物理公式,由IBM科学家Robert Denard在1974年的一篇合著论文中定义。不幸的是,缩小的物理限制了越来越小和更快的设备所能承受的热量。
积极的前景
Dally表达了对Huang定律的信心,尽管从摩尔定律中获得的收益有所减少。
例如,他列举了几个未来在简化数字表示方式、在AI模型中创建更多稀疏性以及设计更好的内存和通信电路方面的进一步发展机会。
由于每个新的芯片和系统代代都需要新的创新,“现在是成为计算机工程师的好时机”,他说。
Dally相信计算机设计中的新动态为NVIDIA的工程师带来了他们最渴望的三个机会:成为一支成功的团队的一部分,与聪明的人合作,并从事具有影响力的设计。





