一个执行架构师对FinOps的方法:如何利用人工智能和自动化简化数据管理

一个实施架构师的FinOps方法:如何通过人工智能和自动化简化数据管理

我们学会了将FinOps作为一种思维方式和一套云解决方案能力来对待。是的,FinOps使企业能够持续不断地从
中获得价值(根据麦肯锡最近的一篇文章,每年可节省20%至30%的费用),但它也能带来增长和创新。为了实现成本节约和变革效益,准备将您的FinOps努力视为关键的业务优先事项。

在过去的两年里,通过二十多次咨询经验,我们总结出一系列阻碍FinOps成功的问题。

业务高管对FinOps原则的承诺非常晚,导致太多的关注、专业人员和预算被指向操作和战术能力,而不是推动未来云节约的战略能力。团队未能将FinOps的核心原则与云数据管理原则对齐,确保其成功。此外,关键的核心技能没有得到发展或被跳过,导致了不断消除的FinOps能力缺口,因此无法实现FinOps的经济优势。

为了避免这些陷阱,本文将推出四个FinOps学科:

  1. 了解云使用和成本
  2. 数据分析和展示
  3. 管理异常
  4. 工作负载管理和自动化

重点——数据管理中的AI和自动化使得准确、可信、完整的干净数据能够推动您的FinOps生命周期。我们将采取基于工具箱的方法,使您的公司具备需要的能力,以战胜各种云数据管理问题。

作为FinOps公共领域的积极参与者,本文遵守FinOps 4.0 使用条款和条件

什么是FinOps?

FinOps是一种正在发展的云财务管理学科和文化实践,它使组织能够通过协同工程、财务、技术和业务团队对基于数据的支出决策进行最大限度的商业价值。如果FinOps依赖于基于数据的决策,那么云数据管理就一直是FinOps的关键所在。

回顾一下,FinOps也是一项战略任务,团队能够有效地管理云成本,并在核心实践上形成共识,使业务线能够更好地拥有他们的云使用权,并得到由一个中央最佳实践团队支持。工程、财务、CRM和产品等跨职能团队互相赋能,实现更快的交付,并同时获得更多的财务控制和可预测性。

FinOps框架的描绘。

在分解FinOps阶段以对齐云数据管理目标和实践之前,共享推动它的核心概念是有意义的:

FinOps框架描述了:

  • 推动我们的FinOps公共领域和实践的原则。
  • 给利益相关者提供支持所需的FinOps人物角色。
  • 允许FinOps实现双方面的最佳实践和流程模型。
  • 必须持续行动的活动领域,以实施成功的FinOps实践。

FinOps依赖于一个“环环相扣”的生命周期,旨在:

  1. 在团队、利益相关者和业务部门之间进行信息传递。
  2. 确定和测量优化目标。
  3. 随着FinOps目标和指标的发展,将变化和核心能力实施为FinOps。

这种环环相扣的方法采用了一个“爬行、行走、奔跑”的成熟度方法来解决云数据管理对组织的挑战。这个框架也被称为FinOps能力模型或FinOps功能模型。

FinOps提供了一个简单但非常强大的生命周期,以循环方式实现和改进结果:信息、优化和运营。在信息阶段,建立可见性和分配,以及基准制定、预算和预测。

优化阶段应引导您的公司达到明确陈述的、可衡量的目标。考虑至少从这两个方面开始:云费率优化和云使用优化。

对于云费率优化,一个简单的原则应该指导我们的方法 – 您的公司租用云基础设施,而云超大规模是拥有者。因此,只有以灵活单位成本满足您定价模型目标的云基础设施才能使您取得胜利。一种由承诺型折扣和对历史季节性变化的了解驱动的定价模型应该出现。列出一份核心服务的组合与利用FinOps平台的所有LOB的专业化(意味着价格溢价)服务的花名册时间表。

关注云使用优化 – 在变动使用模型(例如,执行季末财务摘要报告与季初有限使用)方面是绕不过的。因此,问题的关键在于通过自动缩放分析和闲置资源的关闭将工作负载精确映射到优化的计算堆栈上。幸运的是,弹性云计算集群正是为此目的而设计的。控制云成本并及时提供商业价值将形成一种平衡。因此,及早和频繁地向您的IT运营和业务伙伴请求反馈,以确保在这方面取得成功。FinOps是一个灵活的框架,您的高级赞助人必须始终指导并优先考虑您的团队的关键成果。

运营阶段的目标是实现单位经济的可预测性。这归结为通过运维来管理异常、工作负载和自动化。

简单地说,异常管理是及时检测、定义、警报和管理意外云成本事件的能力,以减少对业务、成本或其他方面的不利影响。管理异常通常涉及使用工具或报告来识别意外支出,分配异常警报,以及对这些异常进行调查和解决。所以现在正是考虑以下事项的正确时机:

  • 有哪些工具在适时和一致地发布自动化、警报和AI,以发现这些异常?
  • 我的FinOps结构中的哪些人员应负责应用这些工具以获得可衡量的结果?
  • 哪种基于工具的过程将为可靠的数据分析和回溯显示结果?
  • 需要多少个样本集跨越团队(两周,六个月)才能区分可预测的周期性变化和实际的异常?避免在过小的时间样本或您的团队数量不足的情况下做出权威决策 – 这非常重要!现在,根据下面的图示,财富1000公司中元数据扫描的增加是可预测方案中的方差,而不是异常管理中的异常值:

元数据云平台使用量的描绘。

工作负载管理和自动化需要实用的方法和基于指标的可重复结果。

它专注于只在需要时运行数据任务,并创建在任何给定时间自动调整正在运行的计算资源的机制。一个关键目标是为FinOps团队提供适应季节性需求 – 或即时需求波动 – 以及通过对工作负载需求和资源配额进行动态测量来优化云使用。将一些核心要求提供给达到期望状态:

  • 工作负载执行期间如何支持弹性?使工作负载在云架构上具有容错能力?
  • 同样的解决方案是否支持基于UI和API的调度,以使运营阶段不仅仅靠人力?
  • 是否支持高度多样化的工作负载的弹性处理,包括自助服务集群和完全托管集群(例如,Azure Kubernetes服务 [AKS])?
  • 是否支持在云无服务计算上进行大规模处理,允许由一个提供商负责所有的工作负载管理、基础设施管理和工作负载自动化,并对应收一个单一费用?
  • 是否能够在适当的时候提供元数据以支持数据分析和回溯 – 以及定期分析以达到云费率优化和云使用优化?

从上述内容可以看出,复杂问题非常迅速地汇集起来。现在,设想向IT运营、业务连续性官员和企业架构师提出“我们如何规划并为此设计一个解决方案?”下图描述了一些核心能力,以解决工作负载自动化和管理挑战。

关键能力解决工作负载自动化和管理问题为FinOps。

Effective FinOps实施的好处

下面的列表结合了我们在FinOps效益方面的2022-23咨询经验,以及一篇有价值的哈佛商业评论文章:

  • 决策是由有资金的可衡量的商业价值驱动的,而不是主观的IT结果。
  • 通过FinOps实现云单位经济。
    • 要求团队根据需要建立、测量和重构云成本优化,以达到云单位经济
  • 对FinOps授予了明确目标的高级赞助,它存在以满足那些可衡量的商业目标。

企业所有者需要选择“加入”以实现FinOps结果,并遵循定义的实践。所有参与方组织都能够通过及时的指标获得信心,从中了解企业在云投资中实现的最大价值。

  • 云使用模式变得更加高效,与收入生成、数字化转型或其他业务目标相关。
  • 非技术团队在提交运营项目之前,能够更好地掌握成本、治理和专业知识等约束条件。

请注意,本文并未涵盖FinOps的全部领域。目标是建立一个自动化和AI驱动的数据管理工具包,以实现FinOps。下一步是通过数据管理的角度概述FinOps的挑战。

FinOps中的挑战

讨论FinOps中常见的障碍和问题

请阅读以下困扰FinOps成功的顽固挑战列表 – 这些挑战来自于超过20家财富1000强公司的经验,当云数据管理实践未能支持FinOps时:

  • 无法在整个企业范围内强制可衡量的“加入”云成本控制和治理。
  • 没有及时报告机制,供利益相关者提出关键的数据管理问题。
  • 无法管理数据、云成本、云使用和报告中的异常情况。
  • 云策略和治理缺乏投票权以提供成本节约和可衡量的业务结果。
  • 缺乏稳定的数据驻留规则意味着一个地区可以移动、转换和访问数据,而另一个地区不能。
  • 云数据访问管理(DAM)不良,阻碍利益相关者在适当的时间访问正确的数据。
  • 根据上述列表 – 缺乏云平台采用的流程和项目可交付物导致执行赞助商与FinOps努力脱节。

因此,如果您的目标是指导FinOps实践的“北极星”(如行为和原则),您的企业需要建立起由这些原则引导的实践和能力等不太高远的学科。现在,我们可以将上述问题和FinOps原则融合为决策矩阵:

注意:如果需求、障碍或问题在FinOps中无法通过数据管理原则本身来解决 – 本文不予处理。仅依靠FinOps和AI驱动的数据管理是无法解决“团队需要协作”的问题。

如上所述,以下是在“优化”阶段需要考虑的一些事项:如何规划工作负载以实现成本降低而不是按需计算?哪里可以使用Spark无服务器计算来减少繁琐的性能调优,但仍满足运行时目标?最后,哪些解决方案领导者提供以元数据驱动的工作负载分析量化优化的全包式AI驱动云工作负载和基础架构优化?

如何克服FinOps的挑战

为了解决上述FinOps的需求,您的团队需要寻找一个综合平台,能够反复应对FinOps提供的各个学科中的挑战。

下图不是对上述FinOps挑战矩阵的“最终状态”答案,但它开始调整您对在一个单一平台方法中解决FinOps挑战的思考。

描述在云数据管理中满足FinOps需要的逻辑平台的示意图。

您的企业需要提出一个前进的FinOps平台(具备自动化和AI驱动的数据管理),以实现对云使用和成本、数据分析和回溯、异常管理以及工作负载自动化等方面的理解。可预测性、预测、管理共享成本和衡量单位成本的结果只能来自一个支持这些功能的平台。现在,我们可以转向解决FinOps的云数据管理问题。

自动化和AI驱动的数据管理在支持FinOps中的作用

数据管理中的AI

意识到在数据管理(从数据质量开始)尚未达到可接受状态时,企业无法进入优化和运行的FinOps阶段。

对于寻求优化云成本和提高运营效率的以FinOps为驱动的组织来说,AI驱动的解决方案(如大型语言模型[LLMs])在可持续数据管理中扮演着至关重要的角色。通过利用先进的算法和机器学习(ML)技术,AI系统能够筛选大量数据以识别模式、异常和差异,确保数据的准确性、完整性和一致性。但要形成精确的数据回溯和分析基础,或进行更深入的云使用成本分析和异常管理,这些数据必须具备高质量。

考虑以下情况:一个FinOps公司有两个团队:一个团队产生了100万美元的基础设施成本,数据完整可靠;另一个团队也产生了100万美元的基础设施成本,但数据不完整无法交付(尽管他们的ETL完成了)。这将导致至少两个问题领域在你的FinOps数据分析中做出错误决策:

  1. 针对这些虚假数据的云计算“将不得不再次运行”以实现业务目标。
  2. 如果一半的作业在非可靠且无法交付的数据上执行,FinOps分析师将产生无效的单元成本。

就是这么简单。

如果AI基于错误或不完整的数据构建,将会产生偏见,对你在FinOps、数据展示回溯和分析以及基本上所有数据驱动决策上产生负面影响。

我们同意Forbes的说法,GenAI依赖于它所训练的数据集。训练输入数据集中的缺陷(无论是使用不足的数据量或范围,还是在时间框架上有严重限制)将通过不准确的训练模型和日常使用中的操作结果逐渐显现出来。因此,当前FinOps面临的任务是定义、定位并整合一个云原生数据质量解决方案,以确保尽可能地解决和减少这些问题。否则,错误数据驱动的错误决策将阻碍组织在介绍中讨论的关键FinOps结果。

使用LLMs来驱动AI结果会增加生成数据中的幻觉的风险。坚持这个逻辑过程来阻止并揭示GenAI中的幻觉:

  • 临床检查和分析(我们使用数据概要分析)GenAI的数据源是否满足核心期望。
  • 接下来,在一个记分卡上检查和衡量那些已经做了概要分析的数据源的数据质量维度。
  • 反复要求(和吸收)相关方对记分卡上的训练数据提供输入。
  • 要求FinOps参与他们自己的数据质量过程——包括GenAI的训练输入和整体业务数据。
  • 如果GenAI的输入数据不适合于FinOps使用,采取必要措施纠正它。

使用AI的整体仪表板对团队进行检查、分析和处理低质量和卫生的数据。

从设计上说,通过在GenAI数据使用和FinOps团队的结果之前设置一个接受障碍,可以获得额外的利益。重复使用相同的过程来阻止异常业务生成的数据进入FinOps通道。

首先使用自动化来提高数据质量

关于消除偏见、幻觉和错误数据的内容,这是非常重要的。公司需要自动化的规则(和数据质量建议),这些规则来自一个强大的算法库,可以在没有数据产品所有者或数据专员干预的情况下进行更新。

对于FinOps而言,低质量的数据和AI偏见会显著增加操作和决策的负担,特别是在成本分配、预测和管理异常能力方面。有偏见的数据可能会扭曲资源分配,导致不均衡的财务评估和不准确的预算。在预测过程中,由于有缺陷数据驱动的有偏见算法生成不准确的预测,影响了有效计划预算的能力。此外,有偏见的模型带来了真正的风险,因为它们可能会误解真正的异常情况,导致虚假警报或忽视实际的异常情况,阻碍您公司准确识别数据、流程和财务差异。简单地说,由于数据质量不佳和AI偏见,FinOps内的运营和决策挑战变得扩大,阻碍了依赖准确企业数据的FinOps能力的效率和准确性。

以下示例简要介绍了一种实用的经过实战验证的方法,利用自动化和规则建议算法来增强企业级数据质量,为防止AI驱动的偏见提供一些保护。

描述推荐的数据质量规则,指导数据治理人员和数据专家进行数据标准化和修正。

描述接受的数据质量规则,自动生成执行数据标准化和修正的规则。

上面的例子说明了一种利用自动化和AI在数据质量方面有效运用工具集的方法,为FinOps团队在”操作”阶段提供了可靠性。

对于审查、协助、自动化和AI驱动的数据质量,这种基于接受度的思维方式非常有帮助。如果数据质量的可衡量维度无法通过工具集获得改善,FinOps将无法获益,因此需要尝试其他工具集。如果数据治理人员不能选择和操作正确的清洗规则,公司范围内管理异常能力将无法成熟。AI在通过引导规则自动化解决已知卫生异常(如大小写、空格、拼写)方面具有重要价值。此外,公司范围内的工作负载管理和自动化无法实现,如果数据消费者拒绝作为数据产品的异常数据。使用FinOps的术语来说,除非数据质量问题解决,否则这两个领域将停留在“crawl”阶段。

AI在自动化数据分类中的应用

到2023年,大规模使用机器学习增强的数据目录将允许企业简化和自动化常见的数据整理过程。这些过程包括数据标记、分类以及将业务词汇术语与技术数据资产相关联的过程。避免在结构复杂性(Parquet、AVRO、XML)和缺乏推理或直接血统的情况下造成昂贵或容易出错的人为干预是至关重要的,这可能会阻碍商业赞助商或数据分析师回答以下重要问题:

  • 关于重要的业务实体(例如客户、账户和户籍)是否收集到足够可信赖和准确的数据(并加以丰富)?
  • 是否存在弱AI解决方案无法识别的复杂实体(例如住宅客户与企业客户)?

经验是宝贵的教师。当财富1000强的业务部门更多地了解他们的数据及其内容时,将面临更多艰巨的需求,如“我们必须扫描和分类哪些内容”,包括:

  1. 一万个Teradata实例;
  2. 五百亿的金融风险头寸;
  3. 六百个银行系统。

自然语言处理(NLP)和Jaccard距离可用于:

  • 将不同的输入模型准确地与标准元数据模型对齐进行扫描。
  • 快速展示、分类并提供复杂实体的数据相似性,以便您的财务部门经常使用。
  • 对非常不同的数据类型和数据结构提供可靠的相似性分数。
  • 在进行这些扫描后,支持简单的文本搜索,以便财务部门用户可以不用编程就找到所需的相关数据。

数据相似性是指为可比较的数据集分配匹配分数,促使财务部门用户(以及数据管家、业务SME)对数据进行整理并选择最相关的数据用于他们的目的。拥有更强大、及时的元数据和数据分类能够增强业务消费者、高管利益相关方和云数据工程团队的信心,使其为优化和运营阶段做好准备。

AI和活跃元数据标签

在利益相关方能够检查和评估其财务部门数据资产、对这些资产进行协作并对其进行决策之前,您需要一个由人工智能驱动的云数据管理堆栈,并提供以下标准功能或答案:

  • 自动将规则和策略术语与数据属性关联,以实现更一致的财务部门策略结果。
  • 为利益相关方在可重复的元数据处理过程中设定标准角色。
  • 哪些利益相关方拥有数据资产和过程的所有权、投票权和策略更改权?
  • 哪些利益相关方已接受他们被分配的角色(在更新的圆饼图/条形图上)?
  • 有哪些下游用户和角色使用数据?
  • 有哪些过程(ETL、数据集成、数据摄取向导)对数据进行了转换?
  • 通知有新的或更改的数据资产根据其请求到达。

以上内容无法由数据管家、元数据所有者和技术SME持续手动维护。财务部门运营需要强大的AI能力(配合定期的微服务更新)以获得稳定的结果。财务部门的资产数量、数据量、数据异常以及供给财务部门生命周期的变化速度,禁止使用人工或单一供应商的方式。

领域驱动的数据层次结构图,显示了利益相关方对下游拥有的所有权。

请记住,只有当财务部门的利益相关方确信他们的重要、可信赖和及时的数据完成了增值流程,他们才会支付费用,并能够共享、使用和理解其数据,从而做出与其业务交付需求相关的准确决策。在云数据管理中引入自动化和人工智能是实现这一目标的关键构建模块。

在优化和运营阶段,您的财务部门团队现在应该准备好执行以下任务:

  • 为计算、存储和元数据分配初始费用。
  • 能够识别处于休眠状态或与业务无关的数据资产,从财务部门中排除。
  • 能够筛选与财务部门的下游使用不相容或不完整的数据。
  • 从以上人工智能驱动的实践中考虑针对财务部门的数据分析和回溯。