谷歌推出Cloud TPU v5p和AI超级计算机:AI处理能力的一次飞跃

谷歌推出Cloud TPU v5p和AI超级计算机:给AI处理能力带来的惊人突破

谷歌推出了其张量处理单元(Tensor Processing Unit)系列的云 TPU v5p,同时伴随着突破性的人工智能超级计算机架构 AI Hypercomputer 的诞生,引起了轰动。这些创新发布,以及资源管理工具 Dynamic Workload Scheduler,标志着AI任务处理在组织中迈出了重要一步。

云 TPU v5p 是谷歌最强大的TPU版本,成功继承了去年11月推出的v5e。与其前身不同,v5p拥有性能驱动设计,承诺在处理能力方面有显著的提升。每个芯片阵列有8960个芯片,芯片之间的互联速度为4800 Gbps,这一系列产品相比之前的TPU v4,FLOPS翻倍,高带宽内存(HBM)更是增加了三倍之多。

性能的重视使得云TPU v5p在训练大型LLM模型时表现出令人惊叹的2.8倍速度提升。此外,借助第二代SparseCores,与其前身相比,v5p对于嵌入式密集模型的训练速度更快,提升了1.9倍。

AI Hypercomputer作为超级计算机架构的革新者,改变了传统的离散性组件加固的方法,采用协同系统设计增强了AI在训练、微调和服务领域的效率和生产力。它集成了优化性能硬件、开源软件、主要的机器学习框架和灵活的消费模型。

AI Hypercomputer采用了严密优化的计算、存储和网络设计,基于超大规模数据中心基础设施。此外,它通过开源软件向开发人员提供了相关硬件访问,支持JAX、TensorFlow和PyTorch等机器学习框架。该集成扩展到软件领域,也支持Multislice Training和Multihost Inferencing,并与Google Kubernetes Engine(GKE)和Google Compute Engine进行了深度集成。

AI Hypercomputer真正独特的地方在于其灵活的消费模型,专门为AI任务定制。它引入了创新的Dynamic Workload Scheduler以及传统的消费模型,如承诺使用折扣(CUD)、按需和Spot。这个资源管理和任务调度平台支持云TPU和Nvidia GPU,优化用户支出。

在这个模型下,灵活启动选项适合模型微调、实验、短期训练、离线推理和批量任务。它提供了一种具有成本效益的方式来请求GPU和TPU的能力,以便进行执行。相反,日历模式允许预定特定的开始时间,适用于需要精确启动时间和持续时间的训练和实验任务,可以提前8周购买7或14天的服务。

总之,谷歌推出的云TPU v5p、AI Hypercomputer和Dynamic Workload Scheduler标志着AI处理能力迈出了巨大的一步,开启了增强性能、优化架构和灵活消费模型的新时代。这些创新将重新定义AI计算领域,并为各个行业的突破性进展铺平道路。

这篇文章最初发表于guoyuhan.love