VAST Data平台如何消除AI创新的障碍
VAST Data平台消除AI创新障碍
我最近有机会与VAST Data的创始人兼首席执行官Renen Hallak进行交谈,了解他们的新一体化AI数据平台。VAST在2019年发布了VAST DataStore,这是一个高性能、可扩展的全闪存存储系统,引起了轰动。然而,正如我从Renen那里了解到的那样,存储只是VAST更大愿景中的开场表演,他们希望成为一个AI数据平台。
随着对AI的炒作和投资达到了空前的水平,对基础设施的需求也比以往任何时候都更大。VAST旨在消除性能、规模、地理位置和易用性方面的常见妥协,释放AI的潜力。8月1日,VAST推出了扩展的数据平台,包括一个新的数据库和计算能力,以及旗舰产品VAST DataStore。
VAST的数据之旅始于一种革命性的架构
VAST的旅程始于2016年,当时他们创建了一种创新的架构,称为分离共享一切(DASE)。根据Renen的说法,VAST的目标从一开始就是让AI算法快速无阻碍地访问更多数据。
DASE通过将存储和计算分离为独立的资源池,可以并行扩展,彻底重新构思了数据中心设计。这消除了像缓存一致性和元数据管理这样限制扩展架构的瓶颈。VAST还开发了新的共享数据结构和协议,实现了在分离环境中一致高效的数据访问。
因此,DASE以前所未有的规模提供了性能。它使AI工作负载能够以传统基础设施无法实现的方式快速分析庞大的数据集。通过合并更多数据、更快的访问和与模拟和数字数据源的直接连接,VAST相信DASE将带来新的算法突破。
VAST DataStore:高速非结构化数据存储库
VAST的旗舰产品VAST DataStore是基于DASE构建的,于2019年发布。VAST DataStore将SAN和NAS的功能融合为一个专门用于非结构化数据的统一全闪存系统。
利用DASE的并行性,VAST DataStore通过仅使用闪存存储器,以高性价比提供文件、对象和HPC存储。无需在后台使用处理能力较低的较慢磁盘处理容量的独立闪存性能层。所有数据都可以快速、随机地访问。
VAST DataStore通过NFS、SMB和S3等标准接口高效处理以EB规模计算的非结构化数据。在幕后,DASE通过持久写缓冲区实时实现了去重、压缩、快照和QoS等功能。
新的VAST DataBase和VAST DataEngine扩展能力
在VAST DataStore取得成功的基础上,VAST Data最近宣布推出扩展平台,引入了VAST DataBase和VAST DataEngine。与VAST DataStore一起,它们形成了一个统一的数据中心AI环境,涵盖了数据摄入、存储、处理和查询。
VAST DataBase利用DASE提供了一个超大规模的数据库,适用于事务处理和分析工作负载。利用创新的列式格式,VAST DataBase可以减小数据大小,以实现大规模的快速查询性能。DASE允许同时进行OLTP插入和OLAP查询,没有任何折衷。该数据库还充当了VAST DataStore中非结构化数据的元数据目录。
VAST DataEngine可以在全局数据体系中直接处理数据工作负载。它可以根据数据位置和成本等因素优化任务布置。开发人员可以在数据体系中的任何位置创建由数据事件触发的递归计算循环。这种连续处理范式使数据驱动的AI工作流程变得更加高效。
VAST DataSpace:推动AI创新的无限数据体系
将所有内容联系在一起的是VAST DataSpace,这是一个统一的全球命名空间,将本地、云端和边缘位置的数据孤立统一起来。这种突破性的数据访问性使应用程序能够在没有中央所有权的情况下利用数据。不再需要将数据移动到计算节点,而是使计算节点来优化效率。
在去除传统限制的统一数据体系的支持下,出现了令人兴奋的新的AI用例。VAST的客户Pixar通过全球共享数据集彻底改变了动画电影制作的方式。在线旅游巨头Agoda使用VAST来支持其整个大数据和机器学习流水线。
通过消除数据访问方面的妥协,VAST Data正在引领AI基础设施的下一次演进。性能、规模、地理位置和易用性的障碍正在消失,使企业能够专注于创新而不是基础设施。VAST Data正在开创一个新时代,在这个时代中,思想而不是技术限制决定了AI创新的界限。
统一的VAST Data平台带来的可能性
VAST Data的统一平台提供了多种能力,包括实时分析、模型训练、数据库应用等等。让我们来探索一些用例:
实时分析
对于实时分析,VAST DataStore可以快速访问大量的非结构化数据。VAST DataBase可以支持对数十亿行结构化数据进行即席分析查询。将它们结合在VAST DataSpace中,可以进行快速分析,关联非结构化和结构化数据流。
持续模型训练
VAST DataEngine可以实现持续模型训练工作流。当新的非结构化数据到达VAST DataStore时,事件会触发模型训练作业在VAST DataSpace中执行,使用最新的数据。结果会被写入以供即时推断访问。
云突发
为了扩展分析或训练工作负载,VAST DataSpace可以在保持统一的全局命名空间的同时突发到公共云中。这样可以利用云资源来提供额外的容量,而无需进行数据迁移。
超大规模数据库
VAST DataBase以极端规模同时支持OLTP和OLAP,为大规模事务应用提供了理想的基础,这些应用还需要分析洞察。
数据湖
对于数据湖需求,VAST DataStore为所有企业数据提供了一个集中的存储库。VAST DataBase提供了一个数据资产的元数据目录。VAST DataSpace将所有内容整合到一个协同环境中。
总之,VAST Data平台的统一性适用于各种数据密集型用例。通过消除基础设施限制,可能性是无限的。
VAST Data的未来之路
VAST没有放慢脚步的迹象。该公司最近以37亿美元估值融资2.1亿美元。VAST正在积极扩张,包括推出一个专注于推进DASE技术的新研发设施。
VAST正在创新的一些领域包括:
- 将DASE作为可组合的数据服务框架
- 扩展全球文件系统能力
- 新的数据压缩技术,如DNA压缩
- 针对AI/ML、GPGPU工作负载的优化
- 用于低延迟数据访问的区域存储分层
- 混合和多云数据管理
此外,Renen暗示VAST将将市场重点扩展到AI和分析以外的新兴领域,如ML Ops、元宇宙和Web 3.0。
现在正是观察像VAST Data这样的先驱者如何重新塑造数据可能性极限的激动人心时刻。随着AI和下一代应用的创新带来巨大的数据需求,满足这些基础设施需求的公司将推动最具突破性的进展。