如何为任何团队规模建立数据科学战略
为不同团队建立数据科学战略
建立一个快速行动和具有适应变化能力的文化和实践
建立一个快速行动和具有适应变化能力的文化和实践
如果你是一个数据科学领导者,被要求以很大的自由和少量指导来“制定我们的数据科学战略”,那么本文将对你有所帮助。我们将涵盖以下内容:
- 我们所说的战略是什么:它只是一个计划吗?一张路线图?还是其他什么?在这一节中,我们将具体阐述并采用一个工作定义,来解释我们在制定战略时正在构建什么。
- 这个概念如何应用于实际组织环境中的数据科学团队?在这里,我们将探讨我们对战略的概念如何适用于数据科学,并具体说明我们的战略适用于什么。
- 如何实际撰写这个战略。
在整个过程中,我们将大量借鉴研发战略的方法,这些方法与数据科学面临的关键挑战相似:创新的使命,以及寻求发现所带来的不确定性的增加。当我们总结时,你将对战略有一个明确的定义,并获得一个适用于任何规模组织的撰写战略的有益过程。
什么是战略?
如果像我一样,你没有受过高级工商管理硕士学位的训练,也没有参加过商业战略研讨会,当有人要求你制定“数据科学战略”时,你可能会感到困惑。你可能发现最初的搜索也没有什么帮助。像“Three C’s”模型(顾客、竞争对手、公司)这样的经典而强大的框架在确定一个公司应该竞争的层面上是非常合理的。但是将其应用于一个功能或团队,你会觉得你在超负荷地使用这些概念。
如果你真的像我一样,你会陷入阅读《战略之王》和《麦肯锡的方式》等书籍的深深的兔子洞中。(附属链接。)第一本书是一部很有趣的商业历史著作,第二本书是一本从这家著名公司成功的咨询师的经验中提取的技巧的有用集合。但是它们都没有给出一个快速的答案。阅读《战略之王》的一个非常有益的副作用是了解到数据科学家并不孤单:“[我]易于混淆战略与战略计划,但这也是危险的。[…]直到今天,计划比战略更多的公司还有很多。撤销大部分计划,你会发现某种版本的,“我们将继续做我们一直在做的事情,但明年我们会做得更多和/或更好。”这种定义的混淆在我的经验中曾经出现过,有好几次要求制定战略的要求归结为,“对于接下来几个月,你的计划是什么?”
- Amazon SageMaker VPC Only模式支持使用自动关闭生命周期配置的SageMaker Studio和使用Terraform的SageMaker Canvas
- TII的Falcon 180B基础模型现在可以通过Amazon SageMaker JumpStart获得
- “NVIDIA Grace Hopper超级芯片在MLPerf推理基准测试中占据主导地位”
一种非常有益的战略定义,也是我们在本文的其余部分采用的定义,来自Gary Pisano关于研发战略的工作论文:“战略不过是对一种行为模式的承诺,旨在帮助赢得竞争。”这个定义的美妙之处在于它可以适用于组织的任何层面和目的。所有类型和规模的团队都对组织的竞争努力做出贡献,所有团队都可以定义和宣布他们用于专注于这些努力的行为模式。
战略不过是对一种行为模式的承诺,旨在帮助赢得竞争。”
——Gary Pisano
Pisano提出了良好战略的三个要求:一致性、连贯性和对齐性。战略应该帮助我们做出一致的决策,这些决策在累积上有助于达到预期的目标;战略应该帮助组织的各个角落协调他们遍布各地的战术决策;战略应该使地方行动与更大的集体努力保持一致。
最后,它们都基于核心假设,即对于在竞争中提供优势的事物的打赌。Pisano提供了一个有益的例子,即苹果公司的战略“开发易于使用、美观的产品,与消费者数字世界中的其他设备无缝集成”,这是建立在一个核心假设上的,“即顾客愿意为具备这些特点的产品支付更高的价格。”
本质上,根据这个定义,所有的策略都是决策逻辑的打包方式:它们为所有相关方提供了一种确定哪些行动有助于集体努力的手段。
我们将采纳这个策略的定义,并努力定义我们自己的核心战略假设,即数据科学如何为我们的组织增加价值,以及我们在追求这个价值过程中将要承担的模式。此外,我们将假设我们的母公司已经制定了自己的发展战略,这个输入在我们应用对齐的第三个测试时将至关重要。在定义了我们最终战略的形式后,现在我们将转向界定其范围。
我们所说的数据科学是什么,以及这个战略概念如何应用?
为了提醒我的朋友们我是多么有趣,我给几个人发了同样的短信,“当你听到‘数据科学战略’这个词时你会想到什么?”回答的范围从对数据基础设施和MLOps的深思熟虑,到对问题的模糊性的不满(我感到被理解了),再到形形色色的回答,比如“胡说八道”和“我理想的工作”。
虽然样本很小,但包括初创公司和大公司的经验产品经理、数据科学负责人和顾问在内的这个群体对这个术语的定义混乱程度说明了问题。更糟糕的是,数据科学家们遭受第二个困惑:实际上被标榜为“数据科学”的东西往往是根据公司想要招聘的技能集来确定,并用时髦的头衔修饰。
为了消除这种分析中的自由度之一,我们将在本文的其余部分首先采用一个通用的数据科学定义:致力于从建模组织可用数据中创造价值和竞争优势的功能。这可以采取几种典型的形式:
- 构建能够优化面向客户决策的机器学习模型
- 构建能够帮助各级员工完成工作的模型,可能是面向客户的人机协作应用
- 构建可解释的模型,用于帮助业务决策
请注意,我们排除了商业智能和分析,这纯粹是为了专注,并不表示它们比建模工作更不重要。你的分析团队和数据科学团队应该能够顺利合作。(我在这里写过相关内容。)
例如,我的朋友、Google产品经理Carol Skordas Walport会认为数据科学战略包括“如何使数据和基础设施达到足够好的状态以进行分析或机器学习。我会说这是如何使团队能够完成所有工作的。”我们有意将这些更广泛的数据战略项目从范围内排除。(抱歉,Carol。)不过,我们将讨论如何应对数据和基础设施的限制,以及如何通过制定数据科学战略来积极引导更广泛的数据战略。
现在我们有了界限:我们正在制定一套核心战略假设,探讨机器学习和/或人工智能如何为组织增加最大价值,拥有自己明确的战略或目标,并制定一套团队将要遵循的模式来追求这个价值。我们该如何开始呢?
制定我们的核心战略假设:从赢得人工智能的心态开始
经验丰富的机器学习产品经理、工程师和数据科学家经常会提到,机器学习产品与传统软件不同。一个组织必须考虑模型错误的风险、数据漂移、模型监控和重新拟合等问题,因此现代MLOps得以出现。而且在工程方面犯错,导致机器学习应用陷入技术债务的泥潭,非常容易。(关于这个主题,推荐阅读《机器学习:技术债务的高利息信用卡》。)所以,考虑到所有这些成本,我们为什么要这么做呢?
归根结底,我们考虑使用人工智能解决方案,是因为复杂的模型已经证明能够发现有价值的模式。这些模式可以是任何东西,从暗示新的细分的客户偏好聚类,到神经网络为了优化预测而找到的潜在表示。任何一种机器学习构建都依赖于一个案例或期望,即模型能够发现改进过程、发现可行的发现或提高有价值的预测的模式。
在定义任何规模的数据科学团队的核心战略假设时,我们可以从麦肯锡的一个例子描述开始,说明启用人工智能的公司的不同思维方式。引用自“通过人工智能取得成功是一种心态”:
如果我们选择正确的用例,并以正确的方式进行,我们将越来越多地了解我们的客户及其需求,并不断改进我们为他们服务的方式。
这是在构建数据科学战略方面极其有帮助的视角:它将我们的注意力集中在最大的学习上,我们所要做的就是确定我们组织对“正确”定义是什么。但对于我们来说,“正确”的使用案例是什么呢?
在这里,Pisano再次提供了帮助,定义了四个与研发战略密切相关的数据科学要素:
- 架构:我们数据科学职能的组织结构(集中式、分布式)和地理结构。
- 流程:管理我们工作的正式和非正式规范。
- 人员:从我们寻求吸引的技能组合到我们的人才的价值主张。
- 项目组合:我们如何将资源分配给不同类型的项目,以及“用于排序、优先级和选择项目的标准”。
我们将从最后一个概念开始,将我们的重点转向为我们的组织定义理想的项目组合,即我们能够说服自己将产生最大价值的组合。鉴于组织之间的巨大差异,我们将从每个组织都面临的一个挑战开始:风险。
定义目标组合:根据战略确定风险水平和管理
建模工作具有不确定的结果。“机器学习可以做得更好”是我们常常基于历史和直觉提出的论点,而且通常被证明是正确的。但在开始之前,我们永远不知道它将工作得有多好,直到我们通过构建证明机器学习能够解决问题的方式。对于任何给定的使用案例,了解这个问题的答案可能需要不同程度的努力,因此成本也会有所不同。关于这个答案的不确定性也会有所不同,这取决于我们的模型被应用的广度以及我们对数据的了解程度。
我的一位朋友和医疗保健分析产品负责人约翰·梅纳德将风险定义为数据科学战略的一个明确部分:“在保持一个小型和大型赌注的流水线的同时,你如何保持健康的期望,即它们只是赌注?如果数据没有产生预期的结果,你如何制定杀死一个项目的策略,或者如果交付物不符合要求,你如何制定转变的策略?”
组织明确而具体地确定其能够承担的资源水平和时间的长短是明智的。以下是对任何个体建模工作提出的几个有用的问题:
- 成功的估计可能性:这个模型使用案例成功的可能性有多大?
- 预期回报范围:如果成功,这个项目是否会在能够产生巨大回报的过程中提供微小的改进?是否会有突破性的区别使你与竞争对手区分开来?
- 发现失败的预期时间:在了解一个项目假设的价值主张是否能够实现之前,需要多长时间?在了解这个项目不会成功之前,你可以花费多少资源?
希望这些原则是简单明了的,并且所有人都认同它们是好的。理想的项目很可能会成功,带来巨大的投资回报,而如果失败,会很早就失败。然而,这种理想的三位一体往往并不存在。关键在于根据你的组织做出符合你组织情况的权衡。
一个专注于通过人工智能颠覆特定领域的早期创业公司可能会有投资者、领导层和员工都接受将公司作为一种特定方法的大型赌注。或者,它可能更喜欢快速投入生产并允许快速转变的小型项目。相反,如果我们是一家规模庞大、成熟的公司,处于受监管行业,利益相关者对机器学习持怀疑态度,我们可能会选择将投资组合偏向于低劳动强度的项目,这些项目可以提供渐进式的价值,并且失败得快。这有助于建立初步的信任,使利益相关者逐渐适应数据科学项目中固有的不确定性,并使团队在更有雄心壮志的项目上达成一致。成功的早期小型项目还可以加强同一问题领域的更大项目的案例。
以下是如何根据项目范围、持续时间和预期回报来定义目标组合的几个示例:
- “作为我们共同数据科学旅程的起步阶段,我们专注于小型、低劳动强度和快速失败的使用案例,以发现不冒险浪费大量员工时间的机会。”
- “我们确定了一个由三个大型机器学习赌注组成的组合,每个赌注都可能带来巨大的价值。”
- “我们的目标是平衡小型、VoAGI和高投入的项目,相应的回报水平。这样,我们可以在追求具有潜在颠覆性的项目的同时,频繁取得胜利。”
作为应用于我们完整投资组合的最后一个原则,我们的目标是拥有非相关的成功项目集合。也就是说,我们希望看到我们的投资组合,并感觉到各个项目将独立地成功或失败。如果多个项目依赖于一个共同的假设,如果我们感觉它们之间关系如此密切以至于它们将一起成功或失败,那么我们应该重新审视选择。
当我们完成这个阶段时,我们会有以下内容:
- 调查我们的数据科学和机器学习机会
- 按照投资、回报和成功的可能性进行绘制
- 选择与我们的目标和风险承受能力一致的初步优先级列表
既然我们已经确定了我们的目标投资组合,我们将转向确保我们的流程让我们能够快速识别、确定范围并交付有价值的项目。
将投资组合集中于团队独特的解决方案
建设还是购买的问题是永恒的,并且往往涉及到复杂的组织动态。有很多供应商和初创公司希望提供AI解决方案。其中很多是骗子,但也有很多是有效的。许多内部技术和数据科学团队认为前者是一个笑话,后者是竞争对手,并认为把两者分开是浪费时间。这是有道理的,因为花时间查看供应商不会提高建模者的技能,如果一个组织不奖励他们的努力,那么这是数据科学家无法获得职业奖励的成本。这种人际关系的复杂性使本来就复杂的商业案例变得更加复杂:典型的软件解决方案问题并没有消失。您仍然需要担心供应商锁定和云集成等问题。尽管如此,我们应该愿意购买可以提供更高回报率的供应商产品,并且如果考虑到内部团队在包装解决方案上的独特优势,您可以避免分心。
特别是,您的内部团队通常可以对您组织的专有数据拥有受管控的访问权限。这意味着内部团队可能比单一用途的供应商解决方案更深入地理解数据,并可以更轻松地将其与其他来源进行丰富。在足够的时间和计算资源的情况下,一个能力强大的内部团队可能会打败单一用途的供应商解决方案。(这里应该有一个PAC理论的笑话。)但这是否值得呢?
在这里,关键是标准的投资回报率和替代分析,重点放在您的内部市场的时间上。假设我们正在优化电子商务网站上的广告位置。我们已经将供应商列表缩小到一个领先者,该领先者在撰写本文时是领先的营销优化供应商之一,并使用多臂赌博机。我们估计与供应商集成的时间为一个月。或者,我们可以制作我们自己的多臂赌博机,估计需要六个月。我们是否希望我们制作的多臂赌博机能够超越供应商提供的解决方案,并且足够超过以此来证明延迟是合理的?
这取决于情况。使用汤普森抽样进行多臂赌博机可以为您提供对预期遗憾的对数界限,这是一个探索选项而不会浪费太多价值的术语。无论是您的内部团队还是供应商实施,这个声明都是可证明的。相反,您的内部团队更接近您的数据,并且将这样一个用例内部化意味着您将在数据中找到足够丰富的信号以击败供应商的产品。也许您的团队可以注入领域知识,而现成的解决方案则没有这种知识,从而提供有价值的优势。最后,请考虑您的内部团队的机会成本:他们是否可以处理其他具有高价值的项目?如果是这样,一种选择是测试供应商,同时处理其他项目,并在您获得可衡量的供应商结果之后重新评估。
当我们完成这个阶段时,我们会有以下内容:
- 回顾我们在上一步中的机会,并回答“我们能够购买吗?”
- 对于每个可购买的解决方案,回答是否在内部拥有独特的已知或假设的优势
- 对于每个需要进行真正权衡的领域,进行权衡分析
确定了我们内部团队的战略竞争优势后,我们现在要考虑我们的内部流程、工具和数据能力。
围绕知识工厂工具和数据供应链构建流程
我与许多有经验的数据科学家讨论过任务时间的问题,每个人都提到发现、处理、清洗和移动(到适合的计算环境)数据占据了他们工作中的大部分时间。正如麦肯锡的另一组作者在AutoML和AI人才战略中所写的:“许多组织发现,数据科学家的60%到80%的时间花在为建模准备数据上。一旦建立了初始模型,只有很小一部分时间(根据一些分析,只有4%)用于测试和调整代码。”这并不是我们中的大多数人参与这个游戏的原因。在我们的大多数人心中,这是我们为了构建有影响力的模型而付出的代价。因此,我们经常谈论数据科学家需要成功的“基础”。根据我的经验,这种框架可能很快阻碍我们,因此我要挑战我们将自己视为一个模型工厂的思维方式,受到工具和复杂的、常常有问题的数据供应链的限制。
坦白说,当讨论平台时,我从未对这些“基础”谈论点感到认同。
“数据和机器学习平台是成功的机器学习所依赖的基础”,在无数的幻灯片和白皮书中,这是一个加粗的声明。“没有坚实的基础,”一些顾问以父权主义的口吻总结道,“一切都会崩溃。”
然而,问题在于:很少有东西在没有机器学习的情况下“崩溃”。如果你的房子基础不好,你的车库可能会坍塌,连同你自己。如果你开始一个没有经过开发的数据和机器学习平台的机器学习项目,你的模型构建将会……需要更长的时间。而且,如果没有那个新奇的机器学习模型,你的业务很可能会继续以同样的方式存在,尽管没有了一些ML力图提供的竞争优势。但在平庸中坚持下去并非末日。
这就是这个陈词滥调让我无法接受的地方。它试图通过吓唬高管们资助平台工作——这些工作非常有价值,值得强调——好像没有它们世界就会灭亡,但事实并非如此。我们大声疾呼天要塌下来,然后当利益相关者遇到他们习以为常的降雨时,我们失去了信誉。
尽管如此,我敢打赌,具备强大机器学习能力的公司将会胜过那些没有的竞争对手——我深知作为建模负责人的职业生涯就是这样的一次赌注——现代数据和MLOps能力可以大大缩短AI能力的上市时间。考虑一下麦肯锡白皮书《像科技原生态一样扩展AI:CEO的角色》中的这段摘录,重点是我自己加的:
我们经常听到高管们说,将AI解决方案从构思转化为实施需要九个月到一年以上的时间,这使得跟上市场变化动态变得困难。即使经过多年的投资,领导者们经常告诉我们他们的组织没有变得更快。相比之下,应用MLOps的公司可以在仅需2至12周的时间内从构思到实际解决方案,而不需要增加人员或技术债务,缩短上市价值的时间,使团队更快地扩展AI。
你的数据科学战略需要考虑到组织和工具的限制,并采用能够在这些限制内产生可操作的模型或知识单元的模式。也就是说,建模项目应始终具备以下特点:
- 对最小可行建模数据的明确视野。你的数据科学团队应该知道源数据在哪里,并对它需要如何转换有一个大致的草图。
- 实现价值的简单而现实的路径。你将如何将一个性能良好的模型投入实际使用,或者以其他方式应用模型的结果?
初创公司或具备完全自由的架构和工具的团队可以采用现代的MLOps实践,这将使得快速原型设计、部署和监控模型以评估其在现实世界中的影响更加容易。与长期存在的传统技术并肩工作的团队可能会发现,这些技术并非为了融合机器学习而构建,而部署是一个庞大而繁重的过程。在受严格监管的行业中,许多应用可能需要高水平的可解释性和风险控制。
这些挑战都不是不可克服的。我们只需要在时间线的考虑中具备原则性和机智,并将其纳入我们的决策中。
当我们完成以下工作时,我们就完成了这个阶段:
- 调查我们计划使用的用例,确定每个用例获取数据的路径以开始工作
- 确定每个用例实现价值的路径,如果它成功了
- 根据第一步的结果,将这些考虑纳入我们的预期投资,并进行调整
- 根据我们发现的任何变化,优化我们的优先级
通过细化我们在哪些领域应用数据科学的想法,我们将考虑工作模型以确保一致性。
架构和组织:为持续成功构建组织
Pisano将架构定义为“围绕研发如何组织和地理化的一系列决策。”设计架构包括如何将我们的数据科学家与业务部门整合在一起的周密决策。他们是完全集中在一个正式的接收中吗?他们向各个业务部门汇报吗?他们是集中和嵌入式的吗?报告结构和决策权限可能不在你的控制范围内,特别是如果你被委托为一个定义了报告线的部门构建战略。但如果这些问题正在讨论中,以下是一些在最大化数据科学输出价值方面需要考虑的事项。
你的数据科学家们是否会得到良好的支持和适当的评估?考虑初级数据科学人才的培养渠道。数据科学家们来自各种数量背景,通常具备理论和实践技能的混合。一个典型的硕士研究生在这些关键时期建立了技能和理解,并向他们领域的专家证明了这种理解。这通常不包括大量的培训以便将技术发现传达给非专家。
与他们在业务环境中的经验相比,他们可能对领域知识了解较少,并且是为数不多具有方法知识的人之一。他们将被要求应用很少有人在其职能范围之外理解的技术。他们的项目必然包含更多的不确定性,比标准软件构建要多。他们的成功将取决于许多因素,其中许多是数据科学家无法控制的,并且他们几乎没有经验来明确要求以最大化成功的机会。综合在一起,我们开始看到一个被抛进深水区的情况出现。
这可能会给其他职能领导者在首次领导数据科学团队时带来挑战。麦肯锡的《为现代时代建立研发战略》的这个教训同样适用于我们的领域:
组织往往倾向于支持具有近期回报的“安全”项目——例如那些出于客户要求而出现的项目——这些项目在许多情况下仅仅是维持现有市场份额。例如,一家消费品公司将研发预算分配给其业务部门,其领导们将使用这笔资金来实现他们的短期目标,而不是公司的长期差异化和增长目标。
在我们的领域中,这往往发生在非技术主管要求初级数据科学家编写任何能够回答当天问题的SQL查询。这通常是有帮助的,但通常不是企业通过招募精明的建模者来推动的价值。
当你有过管理DS或ML项目的领导者时,这个问题就很容易解决。无论职能如何,成功取决于能够倾听问题并确定分析和建模方法来解决问题,并管理风险和不确定性的人。很多初级数据科学家在这种情况下都能取得成功。根据我的经验,他们是在沟通和处理不确定性方面具有天赋的异常人才。我有幸意外地雇佣了几个人——嗨,志宇!要依靠你筛选和竞争这些人才的能力,那是你的冒险。
所有这些似乎都在为集中化您的数据科学功能辩护。这是一种方法,它也引出了我们下一个重要问题。
你的数据科学家是否与业务足够接近,以便专注于解决正确的问题?与直接向业务团队报告的超级本地团队相比,集中的数据科学职能组很可能对您希望解决的业务问题获得较少的曝光。大型、统一的、职能性强的团队在获得所需的业务输入方面可能会遇到困难,主要是因为许多利益相关者不确定要提出什么要求。如果您听说过关于数据科学团队推出“无人问津的科学项目”的恐怖故事,这往往是根本原因。再次强调,不要刻板地对待:这很少是因为数据科学团队具有过于学术化的思维方式,而更多是因为两个不同的职能部门不知道如何以共同的语言进行对话。
这给我们留下了哪些选择?根据我的经验,嵌入式模型是有效的解决方案之一。在这种模型中,您的数据科学团队可以访问您通常讨论业务问题的所有论坛。他们负责抓住这个机会来了解业务团队想要解决的问题,并提出可以增加价值的方法。他们向数据科学领导层汇报,确保他们进行的工作在方法上是可靠的,支持他们获取项目成功所需的资源,并进行指导和培训。
有时候数据科学项目失败是因为糟糕的方法论;而通常是因为预测特征不够有帮助。这对于一个非定量职能的人来说很难区分。
我们完成了这一步骤,当我们拥有:
- 定义了数据科学家或团队的清晰沟通范围的方式
- 定义了参与模式
就像所有实际决策一样,到处都有权衡,并且没有银弹可找到。完全自治的本地团队将最大化对不同的本地结果的关注。集中的功能将最小化重复,但增加了从实际和有影响力的结果偏离的风险。
退一步,沟通和整体迭代
让我们回顾一下我们迄今为止所取得的成就:
- 定义了战略假设,即如何通过数据科学和机器学习增加价值的大赌注。
- 定义了与我们组织的风险承受能力相一致的目标组合,考虑了您的流程和技术限制,并将我们的团队聚焦在我们无法通过购买解决的问题上。
- 根据数据访问和驱动价值的方式,对我们的用例进行了筛选。
- 可能还开发了报告结构和项目获取方法,以支持您的数据科学家并使他们的才能集中在其独特的优势上。
更明确地说,我们已经列出了寻找正确用例的标准,并筛选出了第一个正确的集合。
接下来要做的是:
- 退后一步,全面审视整体。作为一个整体来看,是否合理?
- 传达这个策略,以及由此产生的初步计划。
- 传达潜在利益相关者如何参与您的职能团队。
- 迭代:当导致策略变化的假设或情况发生变化时,重新审视您的策略,并承诺定期审查情况的变化。
总之,这个过程需要付出大量的努力。但是,它会带来巨大的回报。这个策略将清晰地阐述您想要采取的风险,您将如何管理这些风险,以及如果它们成功的话将如何支持您的目标结果。目标的一致性和保持活动与目标一致的便利性对于一个职能团队来说是极具影响力的事情。只要达到这一点,结果就会随之而来。
参考资料
- Brenna等人,《为现代时代建立研发战略》
- Corbo等人,《像技术原生一样扩展人工智能:CEO的角色》
- Kiechel, Walter,《战略之主:新企业世界的秘密知识产权史》(附属链接)
- Meakin等人,《赢得人工智能是一种心态》
- Pisano, Gary P.,《创建研发战略》
- Rasiel, Ethan,《麦肯锡之道》(附属链接)
- Scully等人,《机器学习:技术债务的高利贷》