Microsoft研究员提出的PIT(排列不变转换) 用于动态稀疏的深度学习编译器

Microsoft研究员提出的PIT(排列不变转换):用于动态稀疏的深度学习编译器

最近,深度学习在研究针对动态稀疏性优化模型方面取得了巨大的进展。在这种情况下,稀疏模式只在运行时显示,对高效计算构成了巨大挑战。为了直面这一挑战,一组研究人员提出了一种称为置换不变转换(PIT)的新颖解决方案,展示了他们在第29届操作系统原理ACM学术会议上的最新研究成果。

稀疏感知深度学习领域的最先进解决方案一直在处理预定义的静态稀疏模式方面取得突破。其中的挑战在于与预处理相关的大量开销,限制了这些解决方案在运行时有效处理仅在运行时才能知道的动态稀疏模式。研究人员承认,动态稀疏计算的高效执行在GPU友好的瓷砖配置(对于实现高GPU利用率至关重要)和旨在最小化覆盖浪费即张量中不参与计算的非零值之间存在根本性不匹配。

PIT是一种深度学习编译器,开创了优化领域的新世界。在其核心,PIT利用了数学上经过验证的置换不变转换的特性。这种转换使得将多个稀疏分布的微瓷砖合并成适合GPU的稠密瓷砖成为可能,同时保持计算结果不变。这一策略性举措平衡了高GPU利用率和最小化覆盖浪费,并在动态稀疏处理方面标志着范式的转变。

PIT的工作流程始于确定给定模型中所有操作符的可行PIT规则。这些规则作为生成适用于动态稀疏性特定要求的高效GPU内核的蓝图。重要的是,整个过程都发生在运行时,确保PIT可以根据稀疏模式的变化动态适应。实现涉及两个关键原语 – SRead和SWrite – 它们使得PIT规则能够快速执行,支持在线动态稀疏性。

深入研究技术细节,PIT的在线稀疏检测和稀疏-稠密数据转换机制起到了关键作用。置换不变转换是关键,使得PIT能够从微瓷砖构建计算高效的稠密瓷砖,与GPU友好的配置相匹配。这种方法与传统解决方案形成鲜明对比,后者需要应对显著的离线数据重排开销。

研究人员进行了广泛评估,对多个模型进行了PIT的测试。结果令人印象深刻,PIT相较于最先进编译器将动态稀疏计算加速了多达5.9倍。这种性能提升突显了PIT在解决动态稀疏性带来的计算挑战方面的实际影响。

PIT的贡献还扩展到稀疏训练场景,更加巩固了其灵活而强大的解决方案。这项研究不仅提出了一种新颖方法,还提供了一个全面的工具包来处理动态稀疏性,为深度学习优化领域的变革性进展奠定了基础。

总结而言,这项研究中引入的突破性动态稀疏性优化工具利用置换不变转换(PIT)的力量,不仅解决了将GPU友好的瓷砖配置与稀疏感知瓷砖形状相匹配的持久性挑战,而且推动了深度学习效率方面新时代的到来。凭借其卓越的计算效率加速、处理多样模型的灵活性以及在稀疏训练场景中的潜在应用,这项研究为动态稀疏性调整的变革性进展奠定了基础,在深度学习优化的不断演变的领域中扮演着重要角色。