数据可观测性:在人工智能时代的可靠性
数据可观测性:人工智能时代中的可靠性之探讨
四年前,当我们提出“数据可观测性”概念时,对于那些基于现代数据堆栈获得新价值和新问题的组织来说,这一概念产生了共鸣。
如今,四年过去了,我们看到组织机构在应对生成式人工智能带来的巨大潜力和巨大挑战。
今天的答案和那时一样:通过获取完整的上下文和对数据系统的可见性,提高数据产品的可靠性。然而,在这个新的人工智能时代,系统和流程正在不断演变,因此数据可观测性也必须与之保持同步。
也许最好的方式是将人工智能视为另一种数据产品,将数据可观测性视为监控您所有数据产品的活跃系统。对于建立对语言模型的信任所必不可少的可靠性和可见性,在分析和机器学习中同样具有关键性。
特别针对GenAI,这意味着数据可观测性必须优先解决分辨率、流水线效率和流式/向量基础设施。让我们更仔细地看看这意味着什么。
超越异常
软件工程师早已掌握了应用程序停机时间的处理方法,部分要归功于New Relic和Datadog等可观测性解决方案(顺便提一句,他们刚刚报告了一个惊人的季度业绩)。
另一方面,数据团队最近报告称,数据停机时间几乎翻了一倍,而每小时的成本也在不断上升。
数据产品——分析、机器学习和人工智能应用程序——需要变得像那些应用程序一样可靠,以真正融入关键业务运营中。如何做到呢?
嗯,当您深入研究数据停机调查时,会发现一种趋势:一旦检测到故障,解决方案的平均时间从9个小时上升到15个小时。
根据我们的经验,大多数数据团队(可能受数据测试的常见做法影响)会从检测开始对话。尽管早期检测非常重要,但团队往往低估了故障排除和解决方案高效性的重要性。想象一下在几十种工具之间跳来跳去,试图绝望地弄清楚异常的原因,或者它是否重要。这通常会导致疲惫不堪的团队忽视警报并遭受数据停机的损失。
Monte Carlo通过将此数据新鲜度差错与GitHub的拉取请求中的dbt模型错误相关联,加快了根本原因分析。图像由Monte Carlo提供。
数据可观测性的特征在于能够加速对数据、系统和代码的根本原因分析,并在整个组织、领域和数据产品层面上预先设定数据健康的SLA。
速度(和效率)的需求
数据工程师将更快地构建更多的数据流水线(多亏了Gen AI!),同时技术债务也会与之累积。这意味着查询、DAG和dbt模型的性能下降。
运行缓慢的数据流水线成本更高,可靠性更低,并且数据使用者体验差。而在需要尽快获取数据的人工智能时代,这是不能接受的。尤其是当经济形势迫使每个人对开支采取谨慎态度时。
这意味着流水线需要进行优化并监控其性能。数据可观测性必须为此提供支持。
观察GenAI数据堆栈
这对于过去几年一直从事数据工程或机器学习领域的人来说并不令人意外,LLMs在数据明确定义、结构化和准确的领域表现更好。
更不用说,几乎没有不需要涉及企业背景的企业问题要解决。这通常是专有数据,无论是用户ID、交易历史、货运时间,还是内部文档、图像和视频的非结构化数据。这些数据通常存储在数据仓库/数据湖中。如果Gen AI聊天机器人不了解我是谁、我的过去互动,或者公司的取消政策,那我是无法让它取消我的订单的。
嗯,行了。尽管如此,Chat-GPT 3.5,请(图片由蒙特卡洛提供)。
为了解决这些挑战,组织通常会采取RAG 或预训练/微调的方法,这两种方法都需要智能可靠的数据流水线。简而言之,RAG通过提供LLM附加的上下文信息(通常是一个向量数据库…),该数据库定期从流水线中读取数据,而微调或预训练则通过提供类似数据点的训练语料库,调整LLM在特定或专门类型请求上的性能。数据的可观测性需要帮助数据团队在这个新兴技术中提供可靠性和信任。
在人工智能时代,数据工程比以往任何时候都更为重要
数据工程领域从来没有停止演进。如果我们在十年前对你谈论Spark集群,你可能会礼貌地点点头然后就过马路去了。
引用一个希腊数据工程师哲学家的话来说,唯一的恒定就是变化。为此,我们还要补充一点,数据工程的恒定需求只会变得更多。更多的数据、更高的可靠性、更快的速度(但要更低的成本,拜托了)。
人工智能时代也将不例外,我们认为数据可观测性是通往这个突然到来的未来的重要桥梁。