GenAIOps 演化 MLOps 框架
GenAIOps演化MLOps框架
生成式人工智能需要新的部署和监控能力
早在2019年,我在LinkedIn上发表了一篇名为“为成功的创新而需要ML Ops”的博客。时至今日,对于许多组织来说,将分析、机器学习(ML)和人工智能(AI)模型(或者说系统)实施运营仍然是一个挑战。但是,话虽如此,技术已经发展,新的公司应运而生,以帮助解决在生产环境中部署、监控和更新模型的挑战。然而,随着生成式AI使用大型语言模型(LLM),如OpenAI的GPT-4、Google的PaLM 2 Meta的LLaMA和GitHub Copilot的最新进展,组织纷纷竞相了解与LLM相关的价值、成本、实施时间表和风险。公司应该谨慎前进,因为我们只是开始了这个旅程,我会说大多数组织还没有准备好进行微调、部署、监控和维护LLM。
什么是MLOps?
机器学习运营(也称为MLOps)可以定义为:
MLOps是一个跨职能、协作、持续的过程,专注于通过管理统计、数据科学和机器学习模型作为可重复使用、高可用软件构件来实现数据科学的运作。它涵盖了独特的管理方面,涵盖了模型推理、可扩展性、维护、审计和治理,以及对在生产中的模型进行持续监控,确保它们在底层条件改变时仍然提供积极的业务价值。[1]
现在我们对MLOps有了明确的定义,让我们讨论它对组织的重要性。
为什么MLOps很重要?
在当今算法驱动的商业环境中,MLOps的重要性不可低估。随着组织越来越依赖于越来越复杂的机器学习模型来推动日常决策和运营效率,部署、管理、监控和更新这些模型的需求变得至关重要。MLOps为数据科学家和计算机科学家(开发模型的人)以及IT运营团队(部署、管理和维护模型的人)之间的协作提供了一个框架和一套流程,确保模型可靠、最新且能够提供业务价值。
MLOps的关键能力
广义上讲,MLOps的功能包括自动化的机器学习工作流程、模型版本控制、模型监控和模型治理。
●自动化工作流程简化了模型训练、验证和部署的过程,减少了手动工作量并提高了速度。
●模型版本控制允许跟踪变更并维护模型迭代的注册表。
●模型监控对于确保模型在生产系统中按预期运行至关重要。
●模型治理提供了符合法规和组织政策的能力。
这些能力共同使组织能够规模化地运营机器学习和人工智能,推动业务价值和竞争优势。
MLOps:度量和关键绩效指标
为了确保模型在生产系统中按预期运行并提供最佳预测,有几种类型的度量和关键绩效指标(KPI)被用于跟踪其有效性。与数据科学家交谈,他们通常会强调以下度量:
●模型性能度量:这些度量衡量模型的预测性能。它们可以包括准确性、精确度、召回率、F1分数、ROC曲线下面积(AUC-ROC)、平均绝对误差(MAE)、均方误差(MSE)等。度量的选择取决于问题的类型(分类、回归等)和业务背景。
●数据漂移:这衡量生产工作流程中的输入数据与模型训练的数据之间的偏差程度。显著的数据漂移可能表明模型的预测随时间变得不可靠。我们在被称为COVID的那个小“冲击”中看到了一个很好的例子。消费习惯和商业规范在一夜之间发生了变化,导致每个人的模型崩溃!
● 模型漂移:类似于数据漂移,这衡量的是模型性能随时间的变化(通常是下降),而不是衡量数据分布偏离正常情况的程度。如果基础数据分布发生变化,导致模型的假设变得不太准确,就会发生模型漂移。
● 预测分布:跟踪模型的预测分布可以帮助检测异常情况。例如,如果一个二分类模型突然开始预测大量正例,可能表示存在问题。这些指标通常与业务指标最为相关。
● 资源使用:IT资源使用包括CPU使用率、内存使用率和延迟等指标。这些指标对于确保模型在系统的基础设施和架构约束条件下高效运行非常重要。
● 业务指标:作为所有指标中最重要的指标,这些指标衡量模型对业务结果的影响。它们可能包括收入、客户流失率、转化率和响应率等指标。这些指标有助于评估模型是否提供了预期的商业价值。
因此,现在我们对MLOps有了一个高层次的理解,知道了它的重要性、关键能力和指标,那么这与生成式人工智能有什么关系呢?
生成式人工智能:主要的跨职能应用案例
在生成式人工智能成为主流之前,组织主要实施的是对结构化和半结构化数据进行操作的人工智能系统。这些系统主要在数字上进行训练并生成数字输出,如预测、概率和分组(例如分段和聚类)。换句话说,我们会使用历史数值数据(如交易、行为、人口统计、技术统计、公司统计、地理空间和机器生成的数据)对AI模型进行训练,并输出流失、响应或与某个优惠互动的可能性。这并不意味着我们不使用文本、音频或视频数据 – 我们确实使用了;情感分析、设备维护日志等等;但是与基于数字的方法相比,这些用例要少得多。生成式人工智能具有一套新的能力,使组织能够利用它们多年来一直忽视的数据 – 文本、音频和视频数据。
用途和应用非常广泛,但我总结了生成式人工智能的主要跨职能应用案例(迄今为止)。
内容生成
生成式人工智能可以生成类似于人类质量的内容,包括音频、视频/图像和文本。
● 音频内容生成:生成式人工智能可以制作适合社交媒体平台(如YouTube)的音频轨道,或为您的书面内容添加基于AI的配音,增强多媒体体验。事实上,我在Google Play上的前两本TinyTechGuides的配音完全由AI生成。我可以选择口音、性别、年龄、速度和其他几个关键属性来为AI叙述的图书。在这里查看AI叙述的有声图书。
○ 人工智能:为您的业务提供执行指南
○ 现代B2B营销:营销卓越的实践指南
● 文本内容生成:这可能是目前最流行的生成式人工智能形式,可以用于制作博客文章、社交媒体更新、产品描述、草稿邮件、客户信函、RFP提案等各种文本内容,节省企业大量的时间和资源。但要注意,仅仅因为内容是由生成式人工智能生成并且听起来很有权威性,并不意味着它在事实上是准确的。
● 图像和视频生成:我们已经看到这一领域在好莱坞逐渐成熟,通过AI生成的角色在《星球大战》系列电影中广受欢迎,还有在最新的《印第安纳琼斯》电影中使哈里森·福特年轻化的技术,AI可以创建逼真的图像和电影。生成式人工智能可以通过为广告、演示文稿和博客生成内容来加速创意服务。我们已经看到Adobe和Canva等公司在创意服务领域做出了卓有成效的努力。
● 软件代码生成:生成式人工智能可以生成软件代码(如Python)和SQL,这些代码可以集成到分析和商业智能系统以及AI应用程序中。事实上,微软正在继续研究使用“教科书”来训练LLM以创建更准确的软件代码。
内容摘要和个性化
除了为公司创建全新的逼真内容外,生成式人工智能还可以用于内容摘要和个性化。除了ChatGPT之外,像Writer、Jasper和Grammarly等公司也在针对内容摘要和个性化方面进行定位。这将使营销组织能够花时间创建一个经过深思熟虑的内容日程表和流程,然后可以对这些各种服务进行微调,以创建似乎无限多的经过授权的内容变体,从而能够在合适的时间以合适的渠道交付给正确的人。
内容发现和问答
生成式人工智能(generative AI)在内容发现和问答方面正获得越来越多的关注。从数据和分析软件的角度来看,各种供应商正在整合生成式AI能力,以创建更自然的界面(用通俗语言),以便在组织内自动发现新的数据集,并编写现有数据集的查询和公式。这将使非专业的商业智能(BI)用户能够提出简单的问题,比如“东北地区的销售额是多少?”,然后逐步深入提出更精细的问题。BI和分析工具会根据他们的查询自动生成相关的图表和图形。
我们还看到在医疗行业和法律行业中使用这种技术的增加。在医疗领域,生成式AI可以浏览大量数据,帮助总结医生的笔记,并通过聊天机器人、电子邮件等方式与患者进行个性化沟通和通信。虽然目前还不太愿意单独使用生成式AI进行诊断,但在人机协同的情况下,我们将看到这种使用增加。在法律行业中,我们也将看到生成式AI的使用增加。作为一个以文件为中心的行业,生成式AI将能够快速找到合同中的关键术语,帮助进行法律研究,总结合同,并为律师创建定制的法律文件。麦肯锡将此称为法律副驾驶。
现在我们了解了生成式AI的主要用途,让我们转向关键问题。
生成式AI:关键挑战与考虑因素
生成式AI虽然前景看好,但也面临一些挑战和潜在风险。组织在将生成式AI技术整合到业务流程中之前,必须仔细考虑几个因素。主要挑战包括:
● 准确性问题(幻觉):语言模型(LLMs)经常会生成误导性或完全错误的信息。这些回答可能看起来可信,但完全是虚构的。企业可以建立什么样的保障措施来检测和防止这种虚假信息传播?
● 偏见:组织必须了解模型中偏见的来源,并采取缓解策略来控制它。公司是否有相应的政策或法律要求来解决潜在的系统性偏见问题?
● 透明度缺失:对于许多应用程序,特别是在金融服务、保险和医疗等领域,模型的透明度往往是一个业务要求。然而,语言模型并非天生可解释或可预测的,会出现“幻觉”和其他潜在的问题。如果您的业务需要满足审计员或监管机构的要求,您必须问自己,我们是否可以使用语言模型?
● 知识产权(IP)风险:许多基础语言模型的训练数据通常包括公开可用的信息——我们已经看到了使用图像的诉讼(例如《哈佛商业评论》——生成式AI存在知识产权问题)、音乐的诉讼(The Verge——AI Drake为谷歌设下了一道无法逾越的法律陷阱)以及图书的诉讼(洛杉矶时报——莎拉·西尔弗曼和其他畅销作家起诉MEta和OpenAI侵犯版权)。在许多情况下,训练过程会无差别地吸收所有可用的数据,从而可能导致知识产权暴露和版权侵权的诉讼。这就引出了一个问题,您的基础模型使用了哪些数据,以及用于微调的数据是什么?
● 网络安全和欺诈:随着生成式AI服务的广泛使用,组织必须为恶意行为者潜在的滥用做好准备。生成式AI可以用于创建深度伪造信息进行社交工程攻击。您的组织如何确保用于训练的数据没有被欺诈者和恶意行为者篡改?
● 环境影响:训练大规模的AI模型需要大量的计算资源,这反过来会导致大量能源消耗。这对环境有着重要的影响,因为使用的能源通常来自非可再生能源,从而产生碳排放。对于那些已经制定了环境、社会和治理(ESG)计划的组织来说,您的程序将如何考虑语言模型的使用?
现在,公司需要考虑的事情还有很多,但我们已经涵盖了主要的问题。接下来的问题是,我们如何将生成式AI模型实施到业务中?
GenAIOps:需要一套新的能力
现在我们对生成式AI、主要用途、挑战和考虑因素有了更好的了解,接下来让我们看一下MLOps框架必须如何发展——我将其称为GenAIOps,据我所知,我是第一个提出这个术语的人。
让我们来看一下创建LLMs的高级过程;这个图表是根据《论基础模型的机会与风险》进行调整的。
图1.1:训练和部署LLMs的过程
在上面的图表中,我们可以看到数据的创建、收集、策划,然后对模型进行训练、调整和部署。在此基础上,对于一个全面的GenAIOps框架,应该考虑哪些因素?
GenAIOps:检查清单
最近,斯坦福大学发布了一篇名为《基础模型供应商是否遵守欧盟AI法案草案?》的论文。阅读了那篇论文后,我将其作为灵感,生成了下面的GenAIOps框架检查清单。
数据:
○ 用于训练模型的数据源是什么?
○ 用于训练模型的数据是如何生成的?
○ 训练者是否有权在此情境下使用数据?
○ 数据中是否包含受版权保护的材料?
○ 数据中是否包含敏感或机密信息?
○ 数据中是否包含个人或PII数据?
○ 数据是否被毒化?是否容易被毒化?
○ 数据是否真实,或者其中是否包含AI生成的内容?
建模:
○ 模型有哪些局限性?
○ 模型是否存在风险?
○ 模型的性能基准是什么?
○ 如果需要,我们能否重新创建模型?
○ 模型是否透明?
○ 创建当前模型时使用了哪些其他基础模型?
○ 用于训练模型的能源和计算资源有多少?
部署:
○ 模型将部署在哪里?
○ 目标部署应用是否理解它们正在使用生成式AI?
○ 我们是否有适当的文档以满足审计员和监管机构的要求?
现在我们有了一个起点,让我们更仔细地看一下指标
GenAIOps:指标和过程考虑因素
以MLOps的指标和关键绩效指标为起点,让我们考察这些如何适用于生成式AI的指标。我们希望GenAIOps可以帮助解决生成式AI的特定挑战,例如虚假、伪造、误导或偏见内容的生成。
模型性能指标
在生成式AI的背景下,一个组织如何衡量模型的性能?我怀疑大多数组织可能会使用商业可用的预训练LLM,并使用自己的数据来对模型进行微调和适应。
现在,对于基于文本的LLM,例如BLEU、ROUGE或METEOR,当然有与之相关的技术性能指标;对于图像、音频和视频等其他领域也当然有其他指标,但我更关注虚假、伪造、误导或偏见内容的生成。组织可以采取哪些控制措施来监测、检测和减轻这些情况?
我们过去确实见证了宣传活动的泛滥,而Facebook、Google和Twitter等社交媒体巨头未能实施一种始终可靠地防止这种情况发生的工具。如果是这样,您的组织将如何衡量生成式AI模型的性能?您会拥有事实核查员吗?对于图像、音频和视频呢?您如何衡量这些模型的性能?
数据漂移
考虑到模型需要大量资源和时间来训练,模型创建者将如何确定世界数据是否在漂移,我们是否需要一个新模型?组织将如何了解其数据是否发展到需要重新校准模型的程度?对于数值数据,这相对简单,但对于文本、图像、音频和视频等非结构化数据,我们仍在学习如何处理。
假设我们可以创建一个定期调整我们的模型的机制,那么我们也应该有一个控制机制来检测数据漂移是由于真实事件还是AI生成内容的增加?在我关于AI熵:AI生成内容的恶性循环的帖子中,我讨论了一个事实,那就是当你用AI训练AI时,它会随着时间变得越来越笨。
模型漂移
与您对模型性能和数据漂移的担忧类似,您的组织将如何检测和了解模型的性能是否开始漂移?您会有人工监控输出或向最终用户发送调查吗?也许最直接的方法之一是不仅建立控制机制来监控模型的技术性能,而且您的公司应始终跟踪模型输出。这是不言而喻的,但是您正在使用模型来解决特定的业务挑战,您需要监控业务指标。您是否发现购物车放弃率增加,客户服务电话增加/减少或客户满意度评级发生变化?
预测分布
同样,我认为我们对基于数字的预测有不错的工具和技术来跟踪。但是现在我们要处理的是文本、图像、音频和视频,您如何考虑监控预测分布?我们能否了解部署目标上的模型输出是否产生了虚假相关性?如果是这样,您可以采取什么措施来衡量这种现象?
资源使用
表面上看,这似乎相对简单。然而,随着公司内生成使用的增长,您的组织将需要建立一个跟踪和管理其使用的系统。生成AI部分的定价模型仍在不断发展,因此我们需要谨慎对待。与我们在云数据仓库领域看到的情况类似,我们开始看到成本失控的情况。因此,如果您的公司采用基于使用量的定价方式,您将如何建立财务控制和治理机制,以确保您的成本可预测且不会失控?
业务指标
我之前已经提过这一点了,但是您可以建立的最重要的一组监控和控制机制与您的业务指标有关。您的公司需要始终警惕地监控您的模型如何实际影响您的业务?如果您将其用于关键业务流程,您有哪些服务级别协议保证来确保正常运行时间?
任何AI模型都存在偏见问题,但是这在生成AI中可能更为严重。您将如何检测您的模型输出是否存在偏见,并且它们是否在持续加剧不平等?Tim O’Reilly在一篇名为《我们已经放出魔鬼》的博客中对此进行了很好的阐述,我鼓励您阅读。
从知识产权的角度来看,您将如何确保专有、敏感或个人信息不会从您的组织泄漏?鉴于目前版权侵权的诉讼案件很多,这是您的组织需要解决的一组重要因素。您是否应要求供应商保证这些信息不会出现在您的模型中,类似于Adobe的做法(FastCompany – Adobe非常有信心其Firefly生成AI不会侵犯版权,因此它将为您支付法律费用)?现在,他们愿意为您支付法律费用是很好的,但这会给您的公司带来声誉风险吗?如果您失去了客户的信任,可能永远无法重新获得。
最后,数据污染当然是一个热门话题。当您使用您的组织数据来调整和优化模型时,您如何保证数据不具有毒性?您如何保证用于训练基础模型的数据没有被污染?
总结
最终,这个目标不是为了提供解决GenAIOps的具体方法和指标,而是提出一系列问题,让组织在实施LLM之前需要考虑的。像任何事物一样,生成AI有很大的潜力帮助您的组织获得竞争优势,但也存在一系列需要解决的挑战和风险。最终,GenAIOps将需要一套原则和能力,既涵盖采用组织,也涵盖提供LLM的供应商。用蜘蛛侠的话来说,伴随着强大的力量而来的是巨大的责任。
如果您想了解更多关于人工智能的信息,请查看我的书《人工智能:一本执行指南,让AI为您的业务服务》在亚马逊上购买。
[1]Sweenor, David, Steven Hillion, Dan Rope, Dev Kannabiran, Thomas Hill, and Michael O’Connell. 2020. ML Ops:数据科学的操作化。O’Reilly Media。https://www.oreilly.com/library/view/ml-ops-operationalizing/9781492074663/。