数字原住民(云原生)的数据流状态
数字原住民数据流状态
本博客文章探讨了2023年云原生数字原住民数据流的现状。数字服务的演变和新的商业模式要求实时端到端可见性、时髦的移动应用和与先进技术的集成,如快速上市的全托管云服务、低延迟的5G或创新的增强现实。数据流允许在任何规模上实时集成和关联数据,以改进利用Apache Kafka的最具创新性的应用。
我着眼于数字原住民的趋势,探索数据流如何作为业务推动者的帮助,包括来自New Relic、Wix、Expedia、Apna、Grab等客户的故事。附有完整的幻灯片和按需视频记录。
数字原住民的一般趋势
数字原住民是在云端诞生的数据驱动技术公司。SaaS解决方案建立在提供弹性和灵活运营和扩展能力的云原生基础设施上。人工智能和机器学习改进业务流程,数据通过后端系统流动。
2023年的数据驱动企业
麦肯锡公司发表了一篇关于定义数据驱动企业的七个特征的优秀文章:
- 数据嵌入在每个决策、互动和过程中
- 数据以实时方式处理和提供
- 灵活的数据存储器实现集成、可随时使用的数据
- 数据运营模型将数据视为产品
- 首席数据官的角色扩展到产生价值
- 数据生态系统成员资格是常态
- 数据管理优先并自动化以确保隐私、安全和弹性
麦肯锡公司的这段引言准确地映射了数据流在正确时间和上下文中使用数据的价值。以下的成功案例都是数据驱动的,利用了这些特征。
云原生的数字原住民
数字原住民企业可以有很多含义。IDC有一个很好的定义:
“IDC将数字原住民企业(DNB)定义为基于现代、云原生技术构建的公司,利用数据和人工智能在其所有运营方面,从物流到商业模式到客户参与。所有核心价值或产生收入的流程都依赖于数字技术。”
这些公司在云端诞生,利用全托管服务,因此具有快速上市的创新能力。
人工智能和机器学习(超越噱头)
“Gartner表示:“ChatGPT虽然很酷,但只是个开始;企业使用生成式AI的用途要复杂得多。”我完全同意。但更有趣的是,机器学习(作为企业可用的人工智能的一部分)已经在许多公司中使用。
尽管现在每个人都在谈论生成式AI(GenAI),但我更喜欢谈论多年来已经利用分析模型检测欺诈、向客户推销或预测机器故障的真实世界成功案例。GenAI只是另一种更高级的模型,您可以将其嵌入到IT基础设施和业务流程中。
数字原生技术公司的数据流
只有在企业能够正确提供和关联信息时,才能采用跨行业的趋势。实时,即以毫秒、秒或分钟为单位使用信息,几乎总是比以后处理数据更好(无论“以后”是什么意思):
数字原住民结合了数据流的所有优势:在任何规模上进行实时消息传递,具备真正解耦、数据集成和数据关联能力的存储。
数据流与Apache Kafka生态系统和云服务一起在任何行业的供应链中使用。以下只是一些示例:
云原生基础设施的弹性扩展
云原生SaaS提供的最大好处之一是弹性可伸缩性。技术公司可以以小的占用空间和按需付费的方式启动新项目。如果项目成功或者行业达到高峰时(例如黑色星期五或零售业的圣诞季),云原生基础设施会在高峰后扩展并缩小:
从概念验证到极限规模,没有必要改变架构。Confluent提供的完全托管的Apache Kafka SaaS就是一个很好的例子。学习如何在Confluent Cloud中将Apache Kafka扩展到每秒10+ GB,而无需重新设计您的应用程序。
数据流 + AI/机器学习 = 实时智能
将数据流与Kafka和TensorFlow或其他机器学习框架相结合并不是什么新鲜事。我在2017年就探索了如何“使用Apache Kafka在生产环境中构建和部署可扩展的机器学习”,也就是六年前的事了。
从那以后,我写了许多进一步的文章,并支持各种企业部署数据流和机器学习。这是一个这样架构的示例:
数据网格用于解耦、灵活性和数据产品的关注点
数字原生不再依赖于庞大、专有且不灵活的遗留基础架构。相反,技术公司从零开始使用现代架构。领域驱动设计和微服务在数据网格中结合在一起,业务单位通过数据产品解决业务问题:
数字原生使用的数据流架构趋势
数字原生利用企业架构的趋势来提高成本、灵活性、安全性和延迟性。我在技术公司看到的最重要的四个主题是:
- 使用数据网格进行去中心化
- Kappa架构取代Lambda
- 全球数据流
- 使用数据流进行AI/机器学习
让我们深入研究一些利用数据流的企业架构。
使用数据网格进行去中心化
没有一个单一的技术或产品可以构建数据网格!然而,分散式数据网格基础设施的核心必须是实时、可靠和可扩展的。
使用Apache Kafka进行数据流是构建数据网格的理想基础:愚蠢的管道和智能的端点真正地解耦独立的应用程序。这种领域驱动设计使团队能够专注于数据产品:
与数据湖或数据仓库相反,数据流平台是实时、可扩展和可靠的,这是构建分散式数据网格的独特优势。
Kappa架构取代Lambda
Kappa架构是一种基于事件的软件架构,可以处理所有规模的实时事务和分析工作负载。
Kappa架构的核心前提是您可以使用单一技术栈进行实时和批处理。基础设施的核心是流式架构。
与Lambda架构不同的是,在这种方法中,只有在处理代码发生变化并且需要重新计算结果时,才需要重新处理。
全球数据流
多集群和跨数据中心部署的Apache Kafka已经成为常态而不是例外。
几个场景需要具有特定要求和权衡的多集群Kafka部署,包括灾难恢复、分析聚合、云迁移、关键任务的分布式部署和全球Kafka。
使用数据流进行实时生成式AI(GenAI)的自然语言处理(NLP)
自然语言处理(NLP)为许多项目在现实世界中提供了帮助,例如服务台自动化、与聊天机器人的客户对话、社交网络中的内容审核等许多其他用例。生成式AI(GenAI)只是这些分析模型的最新一代。许多企业多年来一直将NLP与数据流结合使用,用于实时业务流程。
Apache Kafka已成为这些机器学习平台中的主要编排层 ,用于集成各种数据源、大规模处理和实时模型推理。
这里是一个架构示例,展示了团队如何将生成式人工智能和其他机器学习模型(如大型语言模型,LLM)轻松添加到现有的数据流架构中:
上市时间至关重要。人工智能不需要完全新的企业架构。真正的解耦允许添加新的应用程序/技术并将其嵌入现有的业务流程中。
一个很好的例子是Expedia:这家在线旅游公司将聊天机器人添加到现有的呼叫中心场景中,以降低成本,提高响应时间,并让客户更满意。
数字原住民使用数据流的新客户故事
数据流正在发生许多创新。 数字原住民引领着这场竞赛。自动化和数字化改变了技术公司创建全新的商业模式的方式。
大多数数字原住民采用以云为先的方法来提高上市时间,增加灵活性,并专注于业务逻辑,而不是运营IT基础设施。当您从小开始,但从一开始就有着宏伟的全球思维时,弹性扩展性变得更加重要。
以下是来自全球电信公司的一些客户故事:
- New Relic:可观测性平台每分钟摄取多达70亿个数据点,进行实时和历史分析。
- Wix:使用全球数据网格构建的在线拖放工具的网站开发服务。
- Apna:由人工智能驱动的印度最大的招聘平台,用于与客户需求匹配应用程序。
- Expedia:在线旅游平台利用数据流进行对话式聊天机器人服务,整合了履约、自然语言理解和实时分析等复杂技术。
- Alex Bank:使用实时数据实现全新数字银行体验的100%数字化和云原生银行。
- Grab: 亚洲移动服务公司为监控超过1.3亿台设备并每天生成2000万个基于人工智能的风险判断构建了一个网络安全平台。
了解更多资源
这篇博文只是一个起点。您可以在以下点播网络研讨会记录、相关幻灯片和其他资源中了解有关数据流和数字原住民的更多信息,其中还包括非常酷的用例视频。
点播视频记录
该视频记录探讨了电信行业的数据流趋势和架构。 主要关注数据流案例研究。 请查看我们的点播记录:
幻灯片
如果您更喜欢从幻灯片中学习,请查看上述记录所使用的幻灯片:
幻灯片:2023年数字原住民使用Apache Kafka的现状
数字原住民的数据流案例研究和白板视频
2023年数字原住民的数据流现状非常有趣。 每个月都会出现新的用例和案例研究。 这包括整个组织的更好数据治理,从网络基础设施和移动应用收集和处理实时数据,与新商业模式的数据共享和B2B合作等各种场景。
我们录制了白板视频,简单而有效地展示了数据流的价值。 这些五分钟的视频探讨了数据流的商业价值、相关架构和客户故事。 敬请关注;我将在接下来的几周内更新链接,并为每个故事和白板视频发布单独的博文。
而且这只是个开始。 每个月,我们都将讨论不同行业的数据流状态。 制造业是第一个。 金融服务是第二个,然后是零售、电信、数字原住民、游戏等等。