如何建立和管理数据资产组合

数据资产组合的建立和管理方法

逐步方法

照片由Viktor Forgacs通过Unsplash提供。

数据资产(或产品)- 一组准备好的数据或信息,易于为一组已确定的用例消耗- 是数据管理领域的热点。能够识别、构建和管理单个数据产品是一回事,但如何在企业级别上做到这一点?从哪里开始?

数据实现领导者,特别是首席数据官,面临着这个动员挑战。在这个观点中,我们将讨论如何对数据资产采取组合方法。下面的图1展示了逐步方法,本文的其余部分将详细介绍这7个步骤。在整个过程中,我们将解释方法和方法论,并且混入示例。

图1 - 开始管理数据资产组合的7个步骤。图像由作者提供。

在我跟踪的各种实际例子中,我都采用了这种方法,但为了避免任何数据来自任何给定的客户的怀疑,同时展示生成式AI在正确提示时如何可行地使用,我使用ChatGPT 4.0生成了这些示例。完整的聊天记录在此处可用。

第一步:用例和影响

第一步是确定对您的组织重要的数据驱动的用例。您不必一次为整个企业做到这一点-您可以从一个领域或业务线开始,这可能是推荐的。

用例是实施整体组织策略的具体机制。数据战略和数据治理本身并不能带来价值-只有在实现更广泛的战略目标时才能实现价值。因此,用例必须是第一步。

有多种方法可以解决这个问题。您可以通过面试业务和分析领导者来内部建立用例清单。对于您的行业,您可以从外部来源中搜集用例概述。通常可以通过混合方法获得最大的成功-引入外部用例清单,然后与内部领导者一起完善这个清单。

如上所述,为了本文的目的,我使用ChatGPT 4.0构建了清单,如下图2所示。例如,在财务和会计方面,欺诈检测和预防用例使用实时分析和机器学习模型对客户和交易数据的组合进行模式识别和识别可疑事件。或者在市场营销和销售方面,作为营销组合建模的一部分,调查了营销工作和销售业绩之间的历史关系,以优化营销预算的分配和渠道和策略的使用。

图2 - 跨14个业务和功能领域的90个数据驱动用例概述。数据由ChatGPT 4.0生成,图像由作者提供。

仅有用例是不够的-我们需要知道它们的重要性。用例可以通过以下4种关键方式带来价值:

  • 增加收入
  • 降低成本
  • 提升客户体验
  • 降低风险

有些人将“推动创新”列为第五个价值驱动因素,但在我看来,这只是时间问题,因为任何创新本身最终也是通过上述4种机制带来价值。

现在,在图3中,我们有了与营销相关的用例概述以及与之相关的“销售额影响”。实际上,对于刚刚介绍的营销组合建模(“MMM”)用例,我们看到“1到2%的销售额影响”。如果您的公司平均每年收入10亿美元,这些估计表明,营销组合建模可以带来额外的1000-2000万美元。

图3 — 一组市场营销用例及其对整体企业收入的典型影响。来源:通过价值驱动树识别数据驱动用例(与作者合著)

第一步结束时,您将拥有一组用例及其对组织的估计影响。

第二步:所需数据

在这一步中,我们研究了用于支持识别出的用例所需的数据。第一步是确定用例所需的关键数据输入。例如,在运营中进行产品线优化时,所需的数据包括生产量数据、机器性能日志和原材料供应情况。或者在人力资源部门进行员工流失预测时,需要从员工满意度调查、离职面谈反馈和行业离职率中获取数据。

一旦您有了一部分或完整的用例列表,相关的专家或流程负责人可以帮助澄清所需的数据。随着关键数据输入列表的增长,您将达到一个可以开始将数据分组为数据类型或领域的点。在各个行业中,甚至跨行业来说,这些数据类型和领域实际上是相当稳定的。几乎总是适用的数据领域包括客户(或相当于客户的人群,如学生、患者或会员)、员工和财务,因为大多数组织为某些人群提供服务,需要雇员来完成这些服务,并需要管理预算。其他一些领域,如供应链或研究与安全数据,更具体,只有在组织管理产品和材料的物理供应链时才适用。

图4 — 数据类型和领域概览。由ChatGPT 4.0生成的数据,作者提供的图片

上图显示了可能的结果。其中,展示了12个数据领域和约100个子领域。组织的所有数据都可以映射到这里列出的类型。例如,在市场营销和销售中,营销活动支出数据可能包括数字广告、传统媒体广告和赞助活动的相关数据,而在运营中,传感器数据可能包括存储区域的温度传感器数据和监测工厂机械健康的振动传感器数据。

一旦您开始识别用例的关键数据输入,并将这些关键数据输入映射到数据类型或领域,您就可以开始构建一个矩阵,如图5所示。上图中,我们以产品线优化为例,将其映射到运营数据领域,因为它确实需要运营数据。在图5中,将用例映射到更广泛的数据领域,以便在此进行可视化,但在实际生活中,您可以(而且应该)将用例映射到更细粒度的子领域。

图5 — 数据驱动用例与数据类型的映射。由ChatGPT 4.0生成的数据,由作者优化;作者提供的图片。可根据要求提供完整分辨率的图片。

仅仅对这一点有一个全景式的了解——关键用例与其所需的数据类型的映射——对于制定数据战略和优先考虑特定数据领域已经非常有价值…但我们将进一步深入,并使其更具操作性。

第三步:数据来源

在根据第2步的(逻辑)数据需求来确定源系统之前,让我们选择一个用例组并评估它们所需的数据。下图展示了市场营销和销售用例的概述以及它们所依赖的关键数据。这与图5中显示的内容一致,只是粒度更高。

图6 — 营销和销售的用例以及它们所需的关键数据。数据由ChatGPT 4.0生成,作者提供的图片。

例如,我们可以看到对于客户细分和定位的第一个用例,需要有关客户人口统计的数据。对于所讨论的公司来说,这些数据存储在一个名为Global CRM的物理系统中。类似地,相同用例所需的购买历史数据存储在两个系统中:电子商务交易历史和零售销售点系统。

依此类推。如果我们从上述第6图中获取所有关键数据输入,并确定数据来源系统,我们就可以得到第7图的表格。正如您所见,一些数据源包含多种类型的关键数据。例如,Global CRM Master包含客户人口统计数据,还包括客户偏好、客户反馈和客户细分数据。

图7 — 营销和销售用例的关键数据输入与数据来源系统的映射。数据由ChatGPT 4.0生成,作者提供的图片。

步骤4:用例与数据来源

我们确定了用例所需的数据(步骤2),然后将其与数据来源系统进行了映射(步骤3)。现在可以创建的下一个视图是用例与数据来源系统的映射,如下图所示,适用于营销和销售。

图8 — 用例与数据来源系统的映射。数据由ChatGPT 4.0生成,作者提供的图片。

在这里,深绿色表示数据对于用例来说是关键的,浅绿色表示它是“很好有”或者支持性的。例如,对于客户细分和定位,来自Global CRM Master的数据是关键的,而来自社交媒体分析的数据是“很好有”的。

但我们已经对用例了解得更多了。事实上,在上述的第1步中,我们做的第一件事就是确定用例和这些用例可能带来的增量收入。这使我们能够对依赖于特定数据源的价值创造做出一些评估。因为如果我们知道某个数据集对于3个分别估计为带来200万美元、300万美元和500万美元增量收入的用例是关键的,我们可以说,1000万美元的收入取决于这个数据集。

您无法独立完成这个练习 — 您需要与各个用例和业务流程的专家和负责人进行合作。找到这些人可能需要一些时间,但一旦找到他们,您通常会发现他们很合作,因为他们对确保用例成功有利益,并且希望澄清哪些数据是关键的以及它们所能带来的影响。

在进行过程中,您可以开始建立一个概览,就像您在图8的右侧所看到的那样,其中估计了对于营销和销售用例来说,所有关键数据源所产生的顶线收入影响。在这里要注意避免重复计算,并确保适当地解释和限定数字;例如,如果一个具有100万美元价值创造潜力的用例依赖于2个数据源,您不能说这两个数据源共同带来了200万美元。

步骤5:资产评估

在前一步中,我们将使用案例和它们所驱动的价值与一组数据源进行了映射。现在我们知道这些数据源(可以)产生价值,这意味着它们对公司具有内在价值,因此它们可以被视为数据资产。

虽然图8已经非常有洞察力了,但它还不能使我们优先考虑某些数据资产(以及对它们的投资)而不是其他的。如果某个特定的数据资产可以产生很大的价值,但它已经存在并且“适合目的”,则可能不需要进一步的行动。

图9呈现了四种数据资产评估状态,从“适合目的”到“缺失或巨大差距”,这使得对数据资产进行一致评估成为可能。在这里,适合目的应该被广泛解释。在正面的情况下,它意味着正确的数据以正确的粒度和及时性可用;它具有高质量和可靠性,并且源系统永远不会停机。在另一方面,它意味着要么根本没有数据资产,要么如果有的话,数据非常不足、不可靠和/或不完整。

图9 - 数据资产评估值。图片由作者提供。

我们现在有了构建所谓的“热图”的工具,其中“热区”(即红色或琥珀色部分)表示价值创造的机会,因为在那里使用案例无法依赖它们所急需的数据 – 请参见下图10。

图10 - 使用案例与数据资产的“热图”。图片由作者提供。

第6步:资产优先级排序

下一步是根据我们现在对它们的了解对数据资产进行优先级排序。图11呈现了我们在图10中看到的相同热图,但我在其中添加了收入影响和依赖使用案例的数量。然后,我根据它们所生成的总收入影响将数据资产重新排序,按降序排列。

图11 - 使用案例与数据资产及其所驱动的价值的热图。图片由作者提供。

现在更清楚了,哪些数据资产可以优先进行增强和投资。例如,很明显,全球CRM主数据是一个大问题,因为它不能为9个(!)使用案例提供最佳支持,影响超过1300万美元。像Instagram Insights、客户支持门户和Google Ads Data等各种数据资产是适合目的的,因此似乎不需要纠正。然后我们还有一些底部的数据资产,如Shopify Analytics和新闻聚合平台,它们可能尚未就位,但每个仅支持1个使用案例,并且影响有限。

如果您是首席数据官,并且这个全景反映了您组织在某个领域的数据资产和使用案例,那么一个以影响为导向的路线图就会为您打开。这为您提供了明确的机会,选择一两个数据资产,并将它们用作增强战略重要数据的治理的战略位置。这可以用来嵌入和操作各种数据治理能力,如数据所有权和管理、元数据管理和数据质量,因为每个都对确保数据资产得到充分治理至关重要。

第7步:数据资产组合

人们常常提到,像首席数据官这样的数据领导者的任期预期较短,平均不到2.5年。在很大程度上,这可以解释为首席数据官在短期内很难实现有意义的业务影响。

这正是为什么在这个观点中所提出的方法如此强大 – 如果你按照步骤1-6中所提出的逻辑来优先考虑数据资产,你几乎可以保证产生影响。当你从用例和它们的影响开始,并且从一开始就涉及业务和功能领域时,你避免了“为了数据而做数据”的陷阱,这将大大避免数据治理被视为成本和阻碍业务的观念。

你还没有完成。你所确定的数据资产类似于房地产投资组合中的属性 – 你需要积极管理它们,确保它们保持更新,数据用户继续满意,新需求随时被纳入,并且价值生成不是假定的,而是明确跟踪的。

下面的图12显示了我们在这个观点中分析的组织的数据资产组合仪表板。它显示了已经认证的数据资产数量,映射到它们的用例数量,以及通过增量收入和风险缓解创造的价值。

图12-数据资产仪表板。图片由作者提供。

在中间,你可以看到一个跟踪认证数据资产数量随时间变化的图表,更重要的是,跟踪启用的用例数量和以收入表示的相关影响。这对于CDO职业的长寿至关重要,能够通过有针对性的数据启用和治理活动来证明创造的价值。

在底部,你可以看到数据资产的管道视图。其中一些正在通过结构化激活生命周期推进,而其他一些已经上线。你会看到我们之前调查过的全球CRM主数据确实已经被优先考虑 – 它目前处于“开发”阶段。

市场趣闻

Lalit Kumar通过Unsplash拍摄的照片。

正如在本观点开始时提到的,我在欧洲和美国的多家公司以及银行、保险、零售、技术和制造业等领域使用和改进了这种方法。

在制造业领域的一个例子中,我们遵循了略有改变的7个步骤。鉴于这是一家复杂的全球公司,很难在整个组织中确定用例。相反,我们选择了一个业务领域作为我们的主要关注点,即商业部门,然后是市场营销和销售的子领域(与上述第3步的用例范围类似)。

我们确定了一组约30个用例,其中大部分已经为其他目的定义过。我们执行了步骤2-4的轻量级加速版本,以确定所需的数据和相应的来源,并将用例与来源进行映射。我们直接进行第5步,并与用例所有者和专家进行了对话,询问他们是否能够获得合适的数据。如果不能,那么缺少了什么数据或来源 – 问题在哪里?

很快,我们确定了一组在所需数据方面存在问题的8个用例,并发现其中6个用例存在2个特定数据源的问题。我们没有进一步浪费时间,开始工作。与中央数据团队和商业团队一起,我们就2个数据源的所有者达成了共识,根据一组正式的认证标准对它们进行了评估,并拟定了解决问题的计划。

几个月后,第一个数据资产被增强和认证,以满足所记录的用例的需求。在撰写本文时,尚未测量确切的影响(因为需要时间来实现影响),但最初的插曲证据表明,营销效果可能已经增加了两位数甚至两位数以上。无论如何,相关的CDO能够引入和完善这种方法,为其工作做出了一点小胜利,并启动了一个更广泛的路线图,包括其他资产、用例和领域。

祝好运!

建立和管理数据组合并不一定容易或快速,但这是值得努力的。我希望这里概述的步骤对您有所帮助。如果您有反馈或自己的故事要分享,欢迎在评论中留言。

祝您在数据资产激活之旅中一路顺风!