揭秘数据回填
美妆时尚专家揭秘数据回填的奥秘
让我们来谈谈数据工程师的噩梦

作为数据工程师,我们每天都会遇到独特的挑战。但如果有一个令人望而生畏的任务脱颖而出,那就是回填(backfill)。一个有缺陷的回填意味着过多的处理时间、数据污染和大量的云计费。而且,是的,这也意味着你需要另一个回填工作来修复它。
完成第一次成功的数据回填是数据工程师的成长过程。— Dagster
回填任务需要一组有效的数据工程技能,例如领域知识以验证结果,工具专长以运行回填作业,并对数据库的优化过程有深入的理解。当所有这些元素交织在一个单一任务中时,事情可能出错。
在本文中,我们将探讨数据回填的概念、其必要性和高效的实施方法。无论您是回填的初学者还是经常对此类任务感到恐慌的人,本文都将使您心平气和并帮助您恢复自信。
什么是回填?
回填是填补过去缺失数据的过程,适用于之前不存在的新表,或用新记录替换旧数据。它通常不是一个反复出现的任务,只适用于逐步更新表的数据管道。

例如,一个表按日期列进行分区。一个常规的每日作业只更新最新的两个分区。相比之下,回填作业可以更新从表的初始分区延伸到最初的所有分区。如果常规作业每次都更新整个表,那么回填作业就变得不必要,因为历史数据将自然通过常规作业更新。
那么,何时需要回填?
一般而言,有几种常见情况。让我们看看您是否熟悉它们。
- 创建一个新表,并希望填充缺失的历史数据





