我们对数据管道的认识正在改变 (Wǒmen duì shùjù guǎndào de rènshi zhèngzài gǎibiàn)

数据管道的认识正发生变革 (Shùjù guǎndào de rènshí zhèng fāshēng biàngé)

Unsplash上的Ali Kazal拍摄的照片

目标是可靠高效地将数据发布到生产环境

数据管道是一系列组织在有向无环图(DAG)中的任务。在历史上,这些任务是在开源工作流编排软件如AirflowPrefect上运行的,并且需要由数据工程师或平台团队管理的基础设施。这些数据管道通常按计划运行,并允许数据工程师更新数据仓库或数据湖等位置中的数据。

现在这种情况正在发生变化。思维方式正在发生巨大的转变,数据工程行业正在成熟,人们的思维方式正在从“不惜一切代价将数据移动以服务业务”转向“可靠性和效率”/“软件工程”思维方式。

持续数据集成与交付

我以前写过关于数据团队如何“发布数据”,而软件团队则发布代码。

这个过程被称为“持续数据集成与交付”,它是可靠高效地将数据发布到生产环境的过程。以下是与软件工程中“CI/CD”定义存在细微差异的说明。

作者的图片

在软件工程中,持续交付并不简单,因为在暂存环境中具有接近精确副本对代码运行至关重要。

在数据工程中,这并不是必需的,因为我们发布的是数据。如果有一个数据表,并且只要满足一些条件,我们就知道数据的质量足以被使用,那么它就足以被“发布”到生产环境。

将数据发布到生产环境的过程,相当简单,就是复制或克隆数据集。

此外,数据工程的一个关键支柱是对到达的新数据进行反应或检查是否存在新数据。在软件工程中没有类似的情况,因为软件应用程序并不需要…