哪个团队应该拥有数据质量?
专家还是通才?工程师还是分析师?我们研究哪种团队结构最适合有效地提高数据质量。

当然,数据质量是每个人的问题。但是谁拥有解决方案呢?
由于方法的差异和成功的混合,我们有很多自然实验可以学习。
一些组织将尝试广泛分散责任,由数据管理者、数据所有者、数据工程和治理委员会各自拥有数据价值链的一部分。其他人则将责任集中在仅有的几个专家身上,这些专家预计将跨越整个平台。有些团队主要将数据质量视为技术挑战,而其他团队则将其视为业务或流程问题。
在过去的一年中,我与数十位数据领导人交谈,以了解他们如何将数据质量作为整体组织目标的一部分。我们还对200名数据专业人员进行了调查,询问他们内部的哪个团队负责数据质量,本文将重点讨论最常见的团队所有权模型,包括数据工程、数据可靠性工程、分析工程、数据质量分析师和数据治理团队。
为什么数据质量所有权重要?
但在我们深入讨论之前,回答这个经常被问到的跟进问题很重要。通常以“只要做到了,谁拥有数据质量并不重要?”等形式提出。这种措辞中有些诡辩,因为“只要做到了”还远远不够确定,实际上也不是整个演习的全部目的。有许多关于明确责任、所有权和目标设定的积极影响的研究,很难只引用其中之一。
事实是,解决数据质量问题不太可能是团队希望优先考虑的举措,而是他们需要优先考虑的举措,以维护信任或扩大团队和平台的规模。如果没有责任制,那么推进数据质量的能见度较低的任务,例如单元测试或文档编写,将无法得到应有的重视。
此外,当责任分散时,通常会出现碎片化的解决方案、协调不一致的优先事项和沟通差距,最终导致数据产品的停机时间更长。
虽然我看到过所有类型的团队成功地实施数据质量解决方案,但每种所有权结构都有独特的优势可供利用和需要缓解的劣势。
数据领导人需要了解每个团队和能力如何相互配合。如果你同时拥有一个喜欢过渡并且喜欢快速奔跑的控球后卫和一个笨重的中锋,那是没有意义的。整体的效果应该比部分的效果更好。
现在,让我们更详细地了解最受欢迎的数据质量团队结构的优势和劣势。
数据工程

让数据工程团队领导应对数据质量问题是迄今最常见的模式。大约一半使用现代数据堆栈的组织会采用这种方法。
通常,它伴随着“你构建了管道,你就拥有它”的思维方式。
这种方法的优点在于,高度技术、系统思维者拥有责任,他们能够很好地解决影响基础架构、代码或数据的系统范围问题。
数据工程师在对数据质量影响很大的系统上游工作。如果Airflow作业、dbt模型或Fivetran同步失败,他们可能会是第一个检测到问题的人,并且可以通过数据血缘等特性获得理解下游影响范围以适当地进行故障排除。
然而,这种方法也有缺点。首先,数据工程师通常很短缺,因此专注于系统和管道,他们并不总是对数据具有深入的领域知识。例如,他们可能知道数据集起源于Salesforce以及将数据放入数据仓库的管道的动态,但他们可能不知道该数据集内的client_currency_exchange_rate字段永远不能为负。
虽然由同一人负责管道的构建和维护很有效,但这也可能会产生族群知识的隔离,当人员离开时,这些知识可能会丢失,而其他人则试图进行入职。
减轻这些挑战的有效方法可以强调文档编写的重要性,以确保知识转移,并嵌入团队或将工程师与嵌入式分析师配对,以更好地获取域知识。
BlaBlaCar是一个数据工程拥有数据质量的组织的例子。他们在容量方面遇到了瓶颈和挑战,直到他们转向数据网格并利用数据可观测性来减少进行根本原因分析所需的时间。
分析工程

分析工程团队通常拥有深厚的领域知识和技术专业知识的混合,使他们成为数据质量的有效领导者。
他们经常被部署为组织跨越数据转换和访问的一种方式,通常使用dbt或类似工具,而集中的数据工程团队则专注于基础设施,企业数据管理或共享服务。
这种方法的优势在于典型分析工程师的强大领域专业知识。他们可以很好地处理管道可靠性和现场质量。
缺点可能是他们解决基础设施问题或与上游数据生产团队和系统协调的能力有限。只有一小部分数据质量问题源于转换层,因此分析工程师将需要与产品和平台工程团队建立强有力的合作伙伴关系,以有效地处理源系统和摄取层中的问题。
Upside的分析工程团队通过将自己定位为跨不同团队的卓越中心,有效地拥有了其组织的数据质量。去年,我的同事与高级分析工程师杰克·威利斯进行了交谈,他说:
“我们的分析工程师应该是加速剂,而不是领域专家。因此,我们将他们定位在所有这些不同的专业团队的中间。这使他们成为卓越中心,然后能够与这些团队嵌入式一起获取跨职能专业知识。”
分析工程团队发现,当他们建立自定义数据管道监视器并与系统健康团队进行培训时,他们的数据质量计划变得更加可持续。通过将系统健康团队纳入设计和创建过程中,他们获得了支持,并使系统健康团队能够设置监视器,从而创建了有意义的见解。
数据治理

数据治理团队通常与数据安全、隐私和访问的更大任务一起领导数据质量。
它的优势在于建立一个全面的策略,考虑整个数据价值链,影响数据生产者、工程师和数据消费者的行为。通常,我们看到治理团队为组织拥有一套解决方案,其中包括数据可观测性、数据目录和访问管理。
数据治理团队通过技术标准、政策和业务流程来推动其他团队采用变革。但是,在没有安全或隐私计划的合规性支持的情况下,采用始终更具挑战性。
规模化运营时,对于治理团队来说,至关重要的是创建全球标准的优质数据,例如文档、监视和服务级别协议的最低要求,然后将责任下放到各个数据所有者中,无论他们是否组织成域或数据团队。
Contentsquare的数据治理团队掌管数据的访问和应用。质量也在他们的职责范围内。
治理团队将每个团队的输出视为数据产品。每个数据产品都与用例相关联,用例与底层数据相关联。数据质量监测支撑着所有底层数据,并且数据团队定期检查以确保每个数据产品按设计运行。我的同事与他们的前数据治理主管Octávio Bastos进行了交谈,他讨论了如何设计以帮助团队扩展的问题:
“有时候,当我们进展如此之快时,我们倾向于只关注价值创造:新仪表板、新模型、新数据探索的新相关性。我们忘记了建立良好的数据工程、数据治理和高效的数据分析团队。这非常重要,以确保在长期内我们具有可扩展性,并且我们可以在未来用同一团队做更多的事情。”
数据可靠性
数据可靠性工程是数据工程的一个专门子集,专注于响应和预防性实践,以提高数据系统的质量和可靠性。这不是一个常见的结构,但正在迅速兴起(我们提到它们和数据团队的专业化是我们2023年最重要的数据工程趋势之一)。
在数据产品面向外部和/或需要满足严格的数据SLA的情况下,专门的数据可靠性工程师团队可以为响应事件和采取预防措施来解决可靠性问题带来所需的关注。
我们在Monte Carlo的产品遥测中看到,利用这种方法的团队在数据可靠性方面的操作指标得到了改善,包括更高的事件状态更新。
然而,团队和数据环境需要足够大,才能从专业化中获得适当的效率。
Mercari使用数据可靠性工程团队结构。他们成功的关键在于设定明确的目标和职责,例如:
- 启动和支持最重要的流水线
- 现代化的数据管道基础设施
- 普及数据操作和监控实践
- 安全访问客户数据
他们的关注也使他们能够做出明智的决策,即何时解决和进行更小的修复,何时需要更大的现代化。
数据质量分析师
最后,一些组织,特别是较大的组织,将利用数据分析师或专门的数据质量分析师。
这种结构的优点在于这些分析师通常与业务非常接近,并且定位良好,能够定义所需的质量标准,并开发定制的测试或监视器来执行这些标准。
然而,这些团队通常需要与数据工程建立强烈的联系,以有效地解决上游问题。
PayJoy是一个组织的例子,数据分析师和分析主管Trish Pham成功地拥有了数据质量。他们拥有超过2,000张表,并主要利用数据来增加对业务绩效的可见性,并在各个职能部门中实现数据驱动的决策。
只要完成就好
无论您的组织和数据团队决定由谁来领导数据质量的响应,重要的是所有权和责任要明确。
首先,评估操作、分析和面向客户的数据用例以及所需的数据可靠性水平。然后,在这些关键用例中,确定对数据价值链具有最大杠杆作用的团队,他们应该能够拥有响应和预防性解决方案,并需要在数据生产者和消费者之间产生影响力。
这不是一个单人项目。您越能够使团队和促进跨部门合作,您就越有可能成功。
在小猪AI上关注我,了解有关数据领导、数据科学应用和相关主题的更多故事。订阅以便获取我的故事。