生成式人工智能与数据工程的未来

也许你已经注意到，世界已经抛弃了互联网、移动、社交、云计算，甚至加密货币，而对生成式人工智能产生了痴迷。

但是，生成式人工智能除了在Twitter上展示花哨的演示之外，还有更多的内容吗？它将如何影响数据？

让我们来评估一下。

生成式人工智能将如何打乱数据

随着生成式人工智能的出现，大型语言模型对绝大多数人类变得更加有用。

需要一个画着骑着独轮车的恐龙的图案来为你三岁孩子的生日派对准备吗？搞定。需要给员工们写一封关于公司新的远程办公政策的草稿电子邮件吗？如同探囊取物。

生成式人工智能将不可避免地对数据产生影响。在与从财富500强到初创公司的数百名数据领导人交谈后，我们得出了一些预测：

获得数据将变得更加容易和普及

类似于聊天的界面将允许用户用自然语言提问有关数据的问题。不擅长SQL和商业智能的人将不再需要向分析师或分析工程师请教，让他们为自己创建一个仪表盘。同时，精通这些技能的人将能够回答自己的问题，并更快、更高效地构建数据产品。

这并不意味着SQL和商业智能（或数据专业人员）将被取代，但它将降低数据获取的门槛，并将其开放给更多利益相关者以满足更多使用场景的需求。因此，数据将变得更加普及和对组织更加有用，从而带来更大的影响。

同时，数据工程师将变得更加高效

从长远来看，机器人可能会吃掉我们（开个玩笑-大部分是这样），但在可预见的未来，生成式人工智能无法取代数据工程师，只能让他们的工作更轻松-这很好。如果你需要更多证据，可以看看GitHub Copilot做了什么。

虽然生成式人工智能将减轻数据专业人员一些临时性工作的负担，但它也将为数据人员提供AI辅助工具，更轻松地构建、维护和优化数据管道。生成式人工智能模型已经在创建SQL/Python代码、调试代码和优化代码方面表现出色，而且它们还将进一步提升。

这些改进可能会融入到您当前的数据堆栈中，或者是由即将推出的种子阶段初创公司设计的全新解决方案。无论哪种方式，结果将是更多的数据管道和更多的数据产品供最终用户使用。

然而，和任何变革一样，这些进步并非没有障碍。更大的数据访问和更高的生产力都增加了数据的关键性和复杂性，使得数据的治理和信任变得更加困难。

我不预测像Looker仪表盘和Tableau报告形状的机器人会肆意妄为。但我预见到一个世界，其中管道变成了象征性的科学怪人，并且业务用户依赖数据，却对数据的来源和使用指导知之甚少。在这个全新的世界中，数据治理和可靠性将变得更加重要。

软件工程团队一直在实践DevOps并自动化他们的工具以改进开发者工作流程、提高生产力和构建更有用的产品-同时确保复杂系统的可靠性。

同样，我们在数据领域必须加大努力，比以往任何时候都更加注重操作纪律。数据可观察性将对数据团队发挥类似的作用，以管理数据的可靠性-包括数据产品-并在规模上变得更加重要和强大。

构建、调优和利用LLMs

上个月，Datadog宣布他们正在与ChatGPT进行整合，以通过跟踪使用模式、成本和性能来更好地管理OpenAI API的性能和可靠性。

监控OpenAI API是一项巨大的工作，但当数据团队开始在其数据处理管道中使用LLMs时会发生什么情况？当团队使用自己的数据集对LLMs进行微调，甚至从头开始创建LLMs时会发生什么情况？不用说，破碎的管道和错误的数据将严重影响最终产品的质量和可靠性。

在Snowflake的2023年第一季度业绩电话会议上，Snowflake的首席执行官Frank Slootman表示：“生成式人工智能由数据驱动。这就是模型进行训练并变得越来越有趣和相关的方式…你不能随意让这些[LLM]在人们对其质量、定义和渊源不了解的数据上肆意泛滥。”

在LLM出现之前，我们已经看到了不可靠的模型训练的影响。就在去年，全球信用巨头Equifax曾表示，一个基于错误数据训练的机器学习模型导致他们向数百万消费者错误发送了信用评分。而在此之前不久，Unity Technologies也因为错误的广告数据给其定向算法带来了1.1亿美元的收入损失。

根据Slootman的说法（以及Equifax和Unity的高管们现在也很可能这样认为），仅仅拥有人工智能是不足以成功的 – 您还需要管理其可靠性。不仅如此，团队还需要一种自动化、可伸缩、端到端和全面的方法来管理由错误数据驱动的糟糕模型的检测、解决以及最终预防。

数据可观察性将在将LLM引入生产并使其足够可靠以供公司和个人在生产用例中采用方面发挥关键作用。

数据可观察性为团队在管道的每个阶段提供了对其数据健康状况的关键洞见，自动监控数据并在系统故障时通知您。数据可观察性还通过字段级别的渊源、日志、相关性和其他洞见提供了丰富的上下文，以便快速排除故障、解决问题，并与受到数据可靠性问题影响的利益相关者进行有效的沟通 – 这对于可信的分析和人工智能产品都至关重要。

AI,Data (computing),Data processing,Engineering,Pipeline (software),Software Engineering

生成式人工智能与数据工程的未来