克服分析项目中的数据质量挑战的3种方法
3 Methods to Overcome Data Quality Challenges in Analytical Projects
解决分析项目中数据质量问题的有效策略
清理数据就像清理饮食一样,你知道应该这样做,但甜甜圈太诱人了!
这需要纪律、流程和领导层的责任感来进行优先处理。但往往是任何数据项目中最容易被忽视的方面。如果你的组织多年来一直忽视它,而你现在又处于一个无法完成的项目中,那么这篇文章就是为你准备的。
以下是克服任何分析项目中数据质量问题的三种方法。
1. 从目标开始 —— 你要解决的业务问题是什么?
当项目出现问题时,往往会有很多不必要的噪音。
你必须成为一个优先级管理专家,并理解哪些数据真正重要。如果你的最终输出需要进行客户流失分析,就要将精力放在优先处理能帮助客户保持的数据上。这很简单,但在现实世界中,数据往往杂乱无章、系统分散且未记录。
从目标开始将帮助你追溯到有问题的数据,并准确定位项目资源需要集中的地方。
实际案例
我参与了一个项目,旨在整合过时的客户系统,以确定最新和准确的客户地址,用于营销活动。花费了将近六个月的时间尝试清理源系统中的客户地址数据,结果事实上是不必要的。这是因为需求没有被准确地翻译过来;你只需要他们的地址的第一行和邮政编码来定位客户。其余的数据可以使用类似Royal Mail的Postcode Address File(PAF)这样的参考数据集来添加。从目标开始,你想要实现什么?
2. 定义数据需要达到的准确度 —— 它不会达到100%
大多数情况下,你的数据不需要达到100%的完整和准确。