2023 年的 MLOps 景观:顶级工具和平台
2023 年 MLOps 景观:顶级工具和平台
当你深入研究2023年的MLOps领域时,你会发现一大批工具和平台已经获得了广泛的认可,并且正在塑造模型的开发、部署和监控方式。为了给你提供全面的概述,本文将探讨MLOps和FMOps(或LLMOps)生态系统中的关键参与者,涵盖了开源和闭源工具,并重点介绍其关键特性和贡献。
MLOps 现状
2023年的MLOps领域的一个显著特点是开源和闭源解决方案的共存。开源工具由于其灵活性、社区支持和适应各种工作流程的能力而获得了显著的认可。另一方面,闭源平台通常提供企业级功能、增强安全性和专门的用户支持。
以下是2023年该领域的概述图:

本文的其余部分将重点介绍2023年市场上的90多个MLOps工具和平台,并分为以下类别:
- 端到端机器学习操作(MLOps)平台
- 实验跟踪、模型元数据存储和管理
- 数据标记和注释
- 数据存储和版本控制
- 数据质量监控和管理
- 特征存储
- 模型中心
- 模型质量测试
- 工作流编排和流水线工具
- 模型部署和服务
- 模型可观察性
- 负责任的人工智能
- 计算和基础设施
- GPU云服务器
- [新] 无服务器GPU
- [新] 向量数据库和数据检索
- [新] 基础模型训练框架
通过全面概述2023年出现的LLMOps和MLOps工具和平台,本文将使您更好地了解多样化的工具生态系统,从而帮助您在MLOps的旅程中做出明智的决策。
如何评估MLOps工具和平台
与任何软件解决方案一样,评估MLOps(机器学习操作)工具和平台可能是一个复杂的任务,因为它需要考虑各种因素。下面是一些在评估MLOps工具和平台时要考虑的关键因素,具体取决于您的需求和偏好。
-
1
云和技术战略 -
2
与组织技术栈中的其他工具的对齐 -
3
商业细节 -
4
组织中的知识和技能 -
5
关键用例和/或用户旅程 -
6
用户支持安排 -
7
活跃的用户社区和未来路线图
云和技术战略
选择一个与您的云提供商或技术栈相一致的MLOps工具,并支持您用于机器学习开发的框架和语言。例如,如果您使用AWS,您可能会更喜欢与其他AWS服务集成的MLOps平台Amazon SageMaker。
与组织技术栈中的其他工具的对齐
考虑MLOps工具与现有工具和工作流程(如数据源、数据工程平台、代码仓库、CI/CD流水线、监控系统等)的整合程度。例如,neptune.ai作为一个实验追踪器,与30多个MLOps工具和平台集成。
商业细节
在评估MLOps工具和平台时考虑商业细节。评估定价模型,包括任何隐藏成本,并确保它们符合您的预算和扩展需求。审查供应商的支持和维护条款(SLA和SLO),合同协议以及协商灵活性,以符合组织的需求。免费试用或概念验证(PoCs)可以帮助您在承诺商业协议之前评估工具的价值。
组织中的知识和技能
评估您的机器学习团队的专业水平和经验,并选择与其技能和学习曲线相匹配的工具。例如,如果您的团队精通Python和R,您可能需要一个支持Parquet、JSON、CSV等开放数据格式以及Pandas或Apache Spark DataFrames的MLOps工具。
关键用例和/或用户旅程
确定您希望使用机器学习解决的主要业务问题和数据科学家的需求,并选择一个可以有效处理它们的工具。例如,如果您的团队致力于推荐系统或自然语言处理应用程序,您可能希望选择一个具有内置算法或模板以处理这些用例的MLOps工具。
用户支持安排
考虑提供商或供应商的支持的可用性和质量,包括文档、教程、论坛、客户服务等。此外,检查工具的更新和改进的频率和稳定性。
活跃的用户社区和未来规划
考虑一个具有强大和活跃的用户和开发者社区的工具,他们可以提供反馈、见解和最佳实践。除了考虑供应商的声誉外,还确保您可以接收更新,查看工具的规划路线,并了解它们与您的目标的一致性。
端到端MLOps平台
端到端MLOps平台提供了一个统一的生态系统,简化了整个机器学习工作流程,从数据准备和模型开发到部署和监控。
端到端MLOps平台的核心功能
端到端MLOps平台结合了一系列重要的能力和工具,包括:
- 数据管理和预处理:提供数据摄取、存储和预处理的能力,让您能够高效地管理和准备数据进行训练和评估。这包括数据标注、数据版本控制、数据增强和与流行的数据存储系统集成的功能。
- 实验和模型开发:平台应提供设计和运行实验、探索不同算法和架构、优化模型性能的功能。这包括超参数调优、自动模型选择和模型指标可视化的功能。
- 模型部署和提供:通过提供容器化、API管理和可扩展的提供基础设施,实现无缝模型部署和提供。
- 模型监控和性能跟踪:平台应具备实时监控和跟踪部署的机器学习模型性能的能力。这包括日志记录、模型指标监控、异常检测和警报功能,确保模型的可靠性、稳定性和最佳性能。
- 协作和版本控制:支持数据和机器学习团队之间的协作,让他们可以共享代码、模型和实验。它们还应提供版本控制功能,以管理机器学习工件的更改和修订,确保可重复性并促进有效的团队合作。
- 自动化的管道和工作流编排:平台应提供自动化的管道和工作流编排工具,使您能够定义和管理复杂的机器学习管道。这包括依赖管理、任务调度和错误处理的功能,简化了机器学习工作流的管理和执行。
- 模型治理和合规性:它们应满足模型治理和合规性要求,以便您可以将伦理考虑、隐私保护和法规合规性纳入您的机器学习解决方案中。这包括模型可解释性、公平性评估、隐私保护和合规性跟踪的功能。
- 与机器学习工具和库的集成:为您提供灵活性和可扩展性。这使您可以利用您首选的机器学习工具并访问各种资源,提高生产力并使用尖端技术。

亚马逊SageMaker
亚马逊SageMaker提供了一个统一的界面,用于数据预处理、模型训练和实验,使数据科学家可以轻松地协作和共享代码。SageMaker Studio提供了内置的算法、自动化模型调优和与AWS服务的无缝集成,使其成为开发和部署规模化机器学习解决方案的强大平台。
微软Azure ML平台
Azure Machine Learning平台提供了一个支持多种编程语言和框架的协作工作空间。使用Azure Machine Learning,数据科学家可以利用预建模型、自动化机器学习任务,并与其他Azure服务无缝集成,使其成为云中机器学习项目的高效可扩展解决方案。
谷歌云Vertex AI
谷歌云Vertex AI提供了一个统一的环境,可以通过AutoML进行自动化模型开发,并使用流行的框架进行自定义模型训练。通过内置组件和与谷歌云服务的集成,Vertex AI简化了端到端的机器学习过程,使数据科学团队能够轻松构建和部署规模化模型。
Qwak
Qwak是一个全面托管、可访问和可靠的机器学习平台,用于开发和部署模型并监控整个机器学习流程。虽然它不是完全的端到端平台,但它还提供了一个特征存储库,允许您对数据进行转换和存储。按需付费的定价使得在需要时轻松扩展。
Domino企业级MLOps平台
Domino企业级MLOps平台提供以下功能:
- 可重现和可重用工作流程的记录系统。
- 一种集成的模型工厂,可在一个地方使用您喜欢的工具和语言开发、部署和监控模型。
- 用于基础设施和治理的自助式基础设施门户。
Databricks
Databricks是一个基于云原生架构的大数据处理、机器学习和分析平台,采用Data Lakehouse架构构建。该平台为您提供了一套统一的工具,用于企业级解决方案中与数据相关的一切,包括构建、部署、共享和维护数据相关的解决方案。
DataRobot
DataRobot MLOps提供自动化模型部署、监控和治理等功能。DataRobot MLOps促进数据科学家、数据工程师和IT运营之间的协作,确保模型顺利集成到生产环境中。
W&B(Weights & Biases)
W&B是一个机器学习平台,用于跟踪实验、版本和迭代数据集、评估模型性能、复现模型、可视化结果、发现回归问题并与同事共享发现。该平台还提供超参数优化、自动化模型训练工作流、模型管理、快速工程和无代码ML应用程序开发等功能。
Valohai
Valohai提供一个协作环境,用于管理和自动化机器学习项目。使用Valohai,您可以定义流水线、跟踪更改并在云资源或您自己的基础设施上运行实验。它简化了机器学习工作流程,并提供版本控制、数据管理和可扩展性等功能。
Kubeflow
Kubeflow是一个用于在Kubernetes上运行可扩展和可移植ML工作负载的开源机器学习平台。它提供了用于端到端机器学习工作流程的工具和组件,包括数据预处理、训练、服务和监控。
Kubeflow与流行的ML框架集成,支持版本控制和协作,并简化了在Kubernetes集群上部署和管理ML流水线。请查看Kubeflow文档。
Metaflow
Metaflow帮助数据科学家和机器学习工程师构建、管理和部署数据科学项目。它提供了一个高级API,可以轻松定义和执行数据科学工作流程。它还提供了许多功能,有助于提高数据科学项目的可重复性和可靠性。Netflix在Metaflow上运行数百到数千个ML项目,这就是它的可扩展性。
您可以将Metaflow用于研究、开发和生产,并将其与各种其他工具和服务集成。请查看Metaflow文档。
实验跟踪、模型元数据存储和管理
实验跟踪和模型元数据管理工具使您能够跟踪实验参数、指标和可视化结果,确保可重现性并促进协作。
在选择元数据存储和管理工具时,您应考虑以下因素:
- 与业务相关的一般事项:定价模型、安全性和支持。
- 设置:需要多少基础设施,以及将其插入到工作流程中有多容易?
- 灵活性、速度和可访问性:您能否自定义元数据结构?它是否可以从您的语言/框架/基础设施、框架或基础设施中访问?它对于您的工作流程是否足够快速和可靠?
- 模型版本控制、血统和打包:您能否对模型和实验进行版本控制和复现?您能否查看完整的模型血统,包括下游使用的数据/模型/实验?
- 元数据的记录和显示:API和UI支持哪些元数据类型?您能否渲染音频/视频?您的框架默认提供哪些功能?
- 比较和可视化实验和模型:支持哪些可视化方式?是否支持并行坐标图?您能否比较图像?您能否调试系统信息?
- 组织和搜索实验、模型和相关元数据:您能否以清晰的方式在工具中管理工作流程?您能否自定义UI以满足您的需求?您能否轻松找到实验和模型?
- 模型审核、协作和共享:在进入生产之前,您能否自动和手动批准模型?您能否与团队评论和讨论实验?
- CI/CD/CT兼容性:它与CI/CD工具的兼容性如何?是否支持持续训练/测试(CT)?
- 集成和支持:它是否与您的模型训练框架集成?您能否在编排和流水线工具中使用它?
根据您的模型元数据问题是研究方面还是产品化方面,您可能希望比较和选择更具体的解决方案:
- 实验跟踪工具,
- 模型注册表,
- ML元数据存储。

MLflow
MLflow是一个用于管理端到端机器学习生命周期的开源平台。它提供实验跟踪、版本控制和部署功能。借助MLflow,数据科学团队可以轻松记录和比较实验,跟踪指标,并组织他们的模型和工件。
neptune.ai
neptune.ai是一个为进行大量实验的研究和生产团队构建的ML元数据存储。它允许团队记录和可视化实验,跟踪超参数、指标和输出文件。Neptune提供共享实验和结果等协作功能,使团队更容易合作。它与您可能已经使用的MLOps工具和库有20多个集成。
与手动、自制或开源解决方案不同,neptune.ai是一个可扩展的全功能组件,具有用户访问管理、开发人员友好的用户体验和协作功能。
这对于机器学习团队来说尤为重要。以下是Neptune如何帮助Waabi的AI团队优化实验跟踪工作流程的示例。
“该产品对我们的实验工作流程非常有帮助。我们公司几乎所有的项目现在都使用Neptune进行实验跟踪,它似乎满足了我们当前的所有需求。所有这些实验对组织中的每个人都可供查看,非常容易参考实验运行并共享结果。” – Waabi的研究科学家James Tu
- 深入了解文档
- 如果您希望与您的团队一起进行自定义演示,请联系我们
Comet ML
Comet ML是一个基于云的实验跟踪和优化平台。它使数据科学家能够记录、比较和可视化实验,跟踪代码、超参数、指标和输出。Comet提供交互式可视化、协作功能和与流行ML库的集成,是一个全面的实验跟踪解决方案。
AimStack
AimStack是一个开源的AI元数据跟踪工具,旨在处理成千上万个跟踪的元数据序列。它提供了一个高效和直观的用户界面,用于探索和比较训练运行、提示会话等。它可以帮助您跟踪实验的进展,比较不同的方法,并确定改进的领域。
数据集标记和注释
数据集标记和注释工具是机器学习(ML)系统的关键组成部分,可以帮助您为模型准备高质量的训练数据。这些工具提供了一个流畅的工作流程,用于注释数据,确保准确和一致的标记,为模型训练和评估提供动力。
数据集标记和注释工具的核心功能
数据集标记和注释工具应包括:
- 支持您的数据类型:支持多种数据类型,包括音频、parquet、视频、文本数据以及传感器读数和3D磁共振成像(MRI)医学数据集等特殊数据集类型。
- 高效协作:它们必须促进注释者之间的无缝协作,使多个用户可以同时工作,跟踪进度,分配任务并进行有效沟通,确保高效的注释工作流程。
- 强大且可自定义的标注界面:用户友好且可自定义的标注界面使注释者能够轻松标记和注释数据,提供边界框、多边形、关键点和文本标签等功能,增强注释的准确性和一致性。
- 与ML框架的集成:与流行的ML框架无缝集成,允许直接使用带注释的数据进行模型训练和评估,消除数据转换复杂性,增强ML开发工作流程。
- 版本控制和审计:提供跟踪和管理注释的不同版本的功能,同时具备全面的审计功能,确保注释过程的透明度、可重现性和问责性。
- 数据质量控制:强大的数据集标记和注释工具包括互标一致性分析、审查工作流程和数据验证检查等质量控制机制,以确保注释的准确性和可靠性。
- 无缝数据导出:数据集标记和注释工具应支持以各种格式(例如JSON、CSV、TFRecord)无缝导出注释数据,这些格式与下游ML流水线兼容,便于将带注释的数据集集成到ML工作流程中。
2023年的标签选项范围从支持专家标注者的工具和服务到众包服务、第三方注释员和程序化标注。

Labelbox
Labelbox是一个数据标注平台,提供一系列功能和能力来简化数据标注过程并确保高质量的注释,例如协作标注、质量控制和自动化能力。
Amazon SageMaker Ground Truth
SageMaker Ground Truth是一个完全托管的数据标注服务,旨在帮助您高效地用高质量的注释标注和注释训练数据。它的一些功能包括数据标注劳动力、注释工作流、主动学习和自动标注、可伸缩性和基础设施等。
Scale AI
Scale AI是一个数据标注平台,为图像、视频和文本数据提供各种注释工具,包括目标检测、语义分割和自然语言处理。Scale AI结合人工标注员和机器学习算法,为团队提供高效可靠的注释。
SuperAnnotate
SuperAnnotate专注于图像和视频注释任务。该平台提供了一套全面的注释工具,包括目标检测、分割和分类。
通过协作标注、质量控制和可定制的工作流等功能,SuperAnnotate能够帮助数据科学和机器学习团队高效地进行高准确度和精度的训练数据标注。
Snorkel Flow
Snorkel Flow是一个以数据为中心的人工智能平台,用于自动化数据标注、集成模型训练和分析以及增强领域专家的协作。该平台的标注功能包括灵活的标签函数创建、自动标注、主动学习等。
Kili
Kili是一个云端平台,可以从任何地方访问,供数据科学家、机器学习工程师和业务用户更高效、更有效地标记数据。它提供了各种功能,可以帮助提高标注数据的质量和准确性,包括:
- 标注工具。
- 质量控制。
- 协作。
- 报告。
Encord Annotate
Encord Annotate是一个自动化标注平台,可以进行AI辅助的图像标注、视频标注和数据集管理。它是Encord套件中Encord Active的一部分。Encord Annotate的主要功能包括:
- 支持所有类型的标注。
- 自动标注工具,如Meta的Segment Anything Model和其他AI辅助的标注技术。
- 面向用例的注释。
- 易于协作、标注员管理和质量保证工作流程。
- 强大的安全功能。
数据存储和版本控制
您需要数据存储和版本控制工具来保持数据完整性,实现协作,促进实验和分析的可重现性,并确保准确的机器学习模型开发和部署。版本控制允许您跟踪和比较不同的数据集迭代。
数据集存储和版本控制工具的核心功能
强大的数据集存储和版本控制工具应提供:
- 安全和可扩展的存储:数据集存储和版本控制工具应提供安全和可扩展的基础设施,用于存储大量数据,确保数据隐私和可用性,以便您访问和管理数据集。
- 数据集版本控制:跟踪、管理和版本化数据集的能力对于实现可重现性和实验至关重要。工具应允许您轻松创建、更新、比较和还原数据集版本,实现在机器学习开发过程中高效管理数据集更改。
- 元数据管理:强大的元数据管理功能使您能够将相关信息(如数据集描述、注释、预处理步骤和许可详情)与数据集关联起来,促进更好地组织和理解数据。
- 协作工作流程:数据集存储和版本控制工具应支持协作工作流程,允许多个用户同时访问和贡献数据集,确保机器学习工程师、数据科学家和其他利益相关者之间的高效协作。
- 数据完整性和一致性:这些工具应通过实施校验和哈希函数来确保数据的完整性,检测和防止数据损坏,从而维护数据集的一致性和可靠性。
- 与机器学习框架的集成:与流行的机器学习框架的无缝集成使您能够直接访问和利用存储的数据集,简化数据加载、预处理和模型训练过程。

DVC
DVC是一个用于版本控制数据集和模型的开源工具。它与Git集成,提供类似Git的界面用于数据版本控制,可以跟踪变化,管理分支,并与数据团队有效合作。
Dolt
Dolt是一个建立在Git之上的开源关系数据库系统。它结合了传统数据库的功能和Git的版本控制和协作特性。Dolt允许您进行版本控制(与DVC集成)和管理结构化数据,使跟踪变化、协作和维护数据完整性更加容易。
LakeFS
LakeFS是一个提供数据湖版本控制和管理能力的开源平台。它位于数据湖和云对象存储之间,允许您在大规模上对数据湖进行版本控制和管理。LakeFS在数据湖环境中促进数据的再现性、协作和数据治理。
Pachyderm
Pachyderm是一个专注于大规模数据处理和版本控制的开源数据版本控制和血统工具。它提供数据血统跟踪、版本控制和再现性功能,适用于管理复杂的数据科学工作流程。
Delta Lake
Delta Lake是一个提供可靠性、ACID事务和数据版本控制的开源存储层,适用于Apache Spark等大数据处理框架。您的数据团队可以通过Delta Lake来管理大规模、结构化和非结构化的数据,具有高性能和耐久性。Delta Lake有助于确保数据一致性,并在大数据工作流程中实现高效的版本控制和管理。
数据质量监控和管理
您可能希望持续观察数据质量、一致性和分布,以识别可能影响模型性能的异常或变化。数据监控工具有助于监控数据的质量。数据管理包括有效组织、存储和管理数据资产,确保可访问性、安全性和合规性。
这些实践对于保持数据完整性、促进协作、实现再现性以及支持可靠准确的机器学习模型开发和部署非常重要。
数据质量监控和管理工具的核心功能
数据质量监控和管理提供以下功能:
- 数据概要分析:工具应提供全面的数据概要分析功能,允许您分析和了解数据集的特征、统计数据和分布情况,帮助更好地洞察数据质量问题。
- 异常检测:有效的异常检测机制可以帮助您识别和标记离群值、缺失值和其他可能影响ML模型准确性和性能的数据异常。
- 数据验证:工具应通过允许您定义验证规则并执行检查,以确保数据集符合预定义的标准和条件,从而促进数据验证。
- 数据清洗:检测和纠正数据错误、不一致性和离群值的能力对于保持高质量的数据非常重要。工具应提供数据清洗功能,包括数据插值、离群值移除和噪声降低技术。
- 与ML工作流程集成:与ML工作流程和管道的集成可以使您将数据质量监控和管理流程纳入整体的ML开发工作流程中,确保对数据质量进行持续监控和改进。
- 自动化和警报:工具应提供自动化功能,以简化数据质量监控任务,并配备警报机制,及时通知您可能存在的数据质量问题,便于及时处理。
- 文档记录和审计:提供文档记录和审计功能可以使ML工程师跟踪数据质量的变化,确保透明度、再现性,并符合数据治理政策。

Great Expectations
Great Expectations是一个用于数据质量验证和监控的开源库。您可以定义关于数据质量的期望,跟踪数据漂移,并监控数据分布的变化。Great Expectations提供数据概要分析、异常检测和验证功能,确保机器学习工作流程的高质量数据。
Talend数据质量
Talend数据质量是一款综合性的数据质量管理工具,具备数据概况、清洗和监控功能。通过Talend,您可以评估数据质量,识别异常,并实施数据清洗流程。
蒙特卡洛
蒙特卡洛是一款流行的数据可观测性平台,提供实时监控和警报功能,用于处理数据质量问题。它可以帮助您检测和预防数据管道故障、数据漂移和异常情况。蒙特卡洛提供数据质量检查、概况和监控能力,以确保机器学习和分析的高质量和可靠性数据。
Soda Core
Soda Core是一款开源的数据质量管理框架,适用于SQL、Spark和Pandas可访问的数据。您可以定义和验证数据质量检查、监控数据管道,并实时识别异常。
Metaplane
Metaplane是一款数据质量监控和管理平台,提供数据概况、质量检查和血统等功能。它可以提供数据管道的可见性,实时监控数据质量,并帮助您识别和解决数据问题。Metaplane支持协作、异常检测和数据质量规则管理。
Databand
Databand是一款数据管道可观测性平台,用于监控和管理数据工作流。它提供数据血统、数据质量监控和数据管道编排等功能。您可以跟踪数据质量,识别性能瓶颈,并提高数据管道的可靠性。
特征存储
特征存储提供了一个集中存储、管理和提供机器学习特征的库,使您能够在模型训练和服务中找到和共享特征值。
特征存储的核心功能
强大的特征存储工具应该具备以下功能:
- 特征工程管道:有效的特征存储工具允许您定义和管理特征工程管道,包括数据转换和特征提取步骤,以生成高质量的机器学习特征。
- 特征服务:特征存储工具应该提供高效的服务能力,以便您可以检索和提供用于模型训练、推理和实时预测的机器学习特征。
- 可扩展性和性能:特征存储工具应该提供可扩展性和性能优化,以处理大量数据,并支持实时特征检索,确保高效和响应迅速的机器学习工作流。
- 特征版本管理:工具应支持机器学习特征的版本管理,使您能够跟踪变更、比较不同版本,并确保特征处理技术在训练和服务机器学习模型时保持一致。
- 特征验证:工具应提供验证机器学习特征质量和完整性的机制,使您能够检测可能影响机器学习模型准确性和性能的数据不一致性、缺失值和异常值。
- 特征元数据管理:工具应支持管理与机器学习特征相关的元数据,包括描述、数据来源、转换逻辑和统计属性,以增强透明度和文档化。
- 与机器学习工作流的集成:与机器学习工作流和管道的集成可以促进特征工程和特征服务流程融入整体机器学习开发生命周期,帮助您实现可重复的模型开发工作流。
在2023年,越来越多的公司正在构建特征存储和自助式特征平台,以便团队和项目之间共享和发现特征。

Feast
Feast是一个开源的特征存储,具有集中式和可扩展的平台,用于管理、提供和发现MLOps工作流中的特征。您可以定义、存储和提供用于训练和推理的特征。Feast支持批量和实时特征服务,使团队能够在机器学习生命周期的不同阶段高效地访问和重用特征。
Tecton
Tecton是一个特征平台,旨在管理特征的端到端生命周期。它与现有数据存储集成,并提供特征工程、特征存储、服务和监控组件,帮助您的团队提高生产力并实施ML管道。
Hopsworks特征存储
Hopsworks特征存储是一个面向数据密集型机器学习工作负载的开源特征平台。您可以使用Hopsworks特征存储构建、管理和提供机器学习模型的特征,同时确保数据血缘、治理和协作。这为数据工程和MLOps工作流提供了端到端支持。
Featureform
Featureform是一个开源的虚拟特征存储,可以与任何数据基础设施一起使用。它可以帮助数据科学团队:
- 打破特征工程孤立
- 通过版本管理随时间管理特征
- 在整个组织中共享特征
- 提供工具来管理特征质量,包括数据分析、特征漂移检测和特征影响分析
Databricks特征存储
Databricks特征存储是一个集中且可扩展的解决方案,用于管理机器学习工作流中的特征。您可以利用其统一的存储库存储、发现和提供特征,消除重复,并促进代码的重用。与Apache Spark和Delta Lake的集成可以实现高效的数据处理,并确保数据的完整性和版本管理。它提供离线存储(主要用于批量推断)和在线存储(低延迟的实时评分数据库)。
通过提供版本控制、元数据管理、时间点查询和数据血统等功能,Databricks特征存储增强了协作、提高了生产力,让您的数据科学家可以专注于模型开发,而不是重复的特征工程任务。
Google Cloud Vertex AI特征存储
Google Cloud Vertex AI特征存储是一个特征管理服务,可以为机器学习工作负载提供存储、发现和提供特征的功能。
使用Google Cloud Vertex AI特征存储,您的数据科学家可以跨项目访问和重用特征,利用版本控制和元数据管理功能,并与其他Google Cloud服务无缝集成,以简化他们的MLOps流程。
模型中心
模型中心提供了一个集中的平台,用于管理、共享和部署机器学习模型。它使您能够简化模型管理、促进协作,并加速机器学习模型的部署。
模型中心的核心功能
模型中心应该提供以下功能:
- 模型发现:模型中心工具提供搜索和发现功能,以基于性能指标、领域、架构或特定要求探索和找到相关模型。
- 模型共享:工具应提供与团队成员或整个组织共享机器学习模型的机制,促进协作、知识共享和预训练模型的重用。
- 模型元数据管理:工具应支持与机器学习模型相关的元数据管理,包括描述、解决的任务类型、性能指标、训练配置和版本历史,以便于模型文档化和可重现性。
- 与机器学习工作流的集成:与机器学习工作流和流水线的集成使您能够将模型中心功能纳入到您的机器学习开发生命周期中,简化模型训练、评估和部署流程。
- 模型治理和访问控制:模型中心工具应提供治理功能,设置访问控制、使用许可、权限和共享策略,以确保数据隐私、安全性,并符合监管要求。良好的实现方式可以包括模型卡的包含。
- 模型部署:模型中心工具应提供推理API,测试模型的能力,并实现无缝将机器学习模型部署到各种环境,包括云平台、边缘设备或本地基础设施。
- 模型版本控制:工具应支持模型中心内机器学习模型的版本控制,以跟踪变更、比较不同版本,并确保训练和部署机器学习模型的可重现性。

Hugging Face模型中心
Hugging Face模型中心是一个流行的平台和生态系统,用于共享、发现和利用不同机器学习任务的预训练模型。Hugging Face社区的成员可以托管他们所有的模型检查点,以便进行简单的存储、发现和共享。它提供了大量的模型,包括transformers等尖端架构,用于文本分类、情感分析和问答等任务。
通过广泛的语言支持和与主要深度学习框架的集成,模型中心简化了将预训练模型和库集成到现有工作流程中,使其成为研究人员、开发人员和数据科学家的宝贵资源。
Kaggle模型
Kaggle模型使您的数据科学家能够在Kaggle上搜索和发现数百个经过训练、准备好部署的机器学习模型,并共享竞赛中的预训练模型。他们可以使用预训练模型快速、轻松地构建机器学习模型。
Tensorflow Hub
TensorFlow Hub是一个机器学习模型的仓库,这些模型是在特定数据集上训练得到的,或者您甚至可以贡献为您的用例创建的模型。它通过将各种机器学习模型作为库或Web API调用而使迁移学习变得可行。整个模型可以通过一行代码下载到您的源代码运行时。
问题领域被分为:
- 文本:语言建模、文本检索、问答、文本生成和摘要。
- 图像:分类、目标检测和风格转换等。
- 视频:视频分类、生成、音频和文本。
- 音频:语音到文本嵌入和语音合成等。
超参数优化
到2023年为止,超参数优化工具的格局并没有发生太大变化。业界依然是一些常见工具占据主导地位。

Optuna
Optuna是一个Python开源超参数优化框架。它提供了灵活且可扩展的解决方案,用于自动化搜索最佳超参数配置。Optuna支持各种优化算法,包括树状Parzen估计器(TPE)和网格搜索,并提供了用户友好的接口,用于定义搜索空间和目标函数。
Hyperopt
Hyperopt是另一个用于超参数优化的开源库。它结合了随机搜索、树状Parzen估计器(TPE)和其他优化算法。Hyperopt提供了一个简单的接口,用于定义搜索空间和目标函数,特别适用于优化复杂的超参数配置。
SigOpt
SigOpt是一个商业超参数优化平台,旨在帮助数据科学和机器学习团队优化他们的模型。它提供了多种优化算法,包括贝叶斯优化,以高效地探索超参数空间。
该平台与流行的机器学习库和框架很好地集成,可以轻松地与现有工作流程相结合。SigOpt的一个显著特点是其处理“黑盒”优化的能力,使其适用于具有专有或敏感架构的模型优化。
模型质量测试
模型质量测试工具提供功能,以确保ML模型的可靠性、鲁棒性和准确性。
模型质量测试工具的核心特点
模型质量测试工具应具备以下功能:
- 模型评估技术:评估机器学习模型性能的方法,包括准确率、精确率、召回率、F1分数和曲线下面积(AUC)等指标,以客观评估模型的有效性。
- 性能指标:工具应提供一系列性能指标,以评估不同领域和任务的模型质量,并针对特定用例度量模型性能。例如,分类问题的AUC、目标检测的平均平均精度(mAP)和语言模型的困惑度。
- 错误分析:模型质量测试工具应支持错误分析,以了解和识别机器学习模型的错误类型,帮助您了解模型的弱点并优先改进的方向。
- 模型版本控制和比较:模型质量测试工具应支持模型版本控制和比较,以比较不同模型版本的性能,并跟踪变化对模型质量的影响。
- 文档和报告:工具应提供功能,用于记录模型质量测试过程、捕获实验配置,并生成报告,以促进透明性、可重现性和协作。
- 与ML工作流程的集成:与ML工作流程和流水线的集成,将模型质量测试过程纳入整体的ML开发生命周期,确保持续测试和改进模型质量。
- 公平性测试:在伦理AI的背景下,工具应提供公平性测试的能力,以评估和减轻模型在不同人口群体或敏感属性上的预测偏差和差异。

Deepchecks
Deepchecks是一个Python包,可以轻松地全面验证您的机器学习模型和数据。这包括与模型性能、数据完整性、分布不匹配等各种问题相关的检查。
Truera
Truera是一个模型智能平台,旨在实现对机器学习模型的信任和透明度。它专注于模型质量保证,帮助数据科学团队识别和减轻模型风险。Truera提供了模型调试、可解释性和公平性评估等功能,以深入了解模型行为并识别潜在问题或偏差。请查阅文档以了解更多信息。
Kolena
Kolena是一个严格的测试和调试平台,用于建立团队协作和信任。它还包括一个在线平台,用于记录结果和洞察。Kolena主要关注规模化的机器学习单元测试和验证过程。它提供以下功能:
- Data Studio,用于搜索项目中的测试场景并识别边界情况
- Test Case Manager,用于管理和控制测试套件和用例,并提供测试覆盖范围的可见性。
- Debugger,用于分析模型错误并识别新的测试场景。
您可以通过app.kolena.io的网页界面或Kolena Python客户端与其进行交互。
工作流编排和管道工具
工作流编排和管道工具是简化和自动化复杂机器学习工作流程的重要组成部分。
工作流编排和管道工具的核心特点
工作流编排和管道工具应提供以下功能:
- 任务调度和依赖管理:工作流编排和管道工具应提供强大的调度功能,以定义任务之间的依赖关系,并自动按正确的顺序执行它们,确保工作流顺利执行。
- 工作流监控和可视化:工作流编排和管道工具应提供监控和可视化功能,以跟踪工作流的进度,监视资源使用情况,并可视化工作流的依赖关系,以获得更好的洞察和故障排除。
- 可重复性和版本控制:工作流编排和管道工具应支持可重复性,通过捕获整个工作流配置,包括代码版本、数据集和依赖项,来帮助您追踪过去的执行情况,以实现可重复性和调试的目的。
- 与机器学习框架的集成:与流行的机器学习框架集成,以便您可以在工作流编排和管道系统中利用您喜欢的机器学习库和工具,确保模型开发的兼容性和灵活性。
- 错误处理和重试机制:工具应提供强大的错误处理和重试机制,以处理故障、重试失败的任务和异常情况,确保机器学习工作流的可靠性和弹性。
- 分布式计算和可扩展性:具备分布式计算能力,以处理大规模机器学习工作流,这样您就可以利用分布式计算框架或云基础设施来扩展工作流和处理海量数据。

ZenML
ZenML是一个可扩展的开源MLOps框架,用于构建可移植的、适用于生产环境的MLOps管道。它专为数据科学家和MLOps工程师共同开发用于生产环境的解决方案而设计。请查阅其文档,了解ZenML的核心概念。
Kedro Pipelines
Kedro是一个用于构建模块化数据科学管道的Python库。Kedro帮助您创建由可重用组件组成的数据科学工作流,每个组件都有一个“单一责任”,以加快数据管道流程、改进数据科学原型设计并促进管道的可重现性。请查阅Kedro的文档。
Flyte
Flyte是一个用于大规模编排ML管道的平台。您可以使用Flyte进行部署、维护、生命周期管理、版本控制和训练。您可以将其与Feast等平台以及PyTorch、TensorFlow和Whylogs等包集成,以执行整个模型生命周期的任务。Samhita Alla是Union.ai的软件工程师和技术传教士,她在这篇文章中简要介绍了Flyte在MLOps中的应用。请查阅文档以开始使用。
完美
完美是一个开源的工作流管理系统,简化了数据流水线和复杂工作流的编排。它提供了任务调度、依赖管理和错误处理等功能,确保数据工作流的高效可靠执行。
相比于Airflow,完美采用基于Python的基础设施和用户友好的仪表板,提高了数据工程和数据科学团队的生产力和可重复性。
Mage AI
Mage是一个开源工具,用于构建、运行和管理用于转换和集成数据的数据流水线。其功能包括:
- 编排,用于调度和管理具有可观察性的数据流水线。
- 笔记本,用于交互式Python、SQL和R编辑器,用于编写数据流水线的代码。
- 数据集成,允许将数据从第三方源同步到内部目标。
- 流式数据流水线,用于接收和转换实时数据。
- 与dbt的集成,用于构建、运行和管理DBT模型。
模型部署和服务
模型部署和服务工具可以帮助您将训练好的模型部署到生产环境,并向最终用户或下游系统提供预测服务。
模型部署和服务工具的核心功能
模型部署和服务工具应该具备以下功能:
- 与部署平台的集成:与云服务或容器编排框架等部署平台的兼容性和集成性,使您能够在首选基础设施上部署和管理机器学习模型。
- 模型版本管理:具备强大的版本管理功能,以部署和提供不同版本的机器学习模型,跟踪模型性能,并在需要时回滚到先前版本。
- API和端点管理:包括API和端点管理功能,用于定义和管理端点,处理身份验证和授权,并提供便捷的接口访问部署的机器学习模型。
- 自动扩展和负载均衡:提供自动扩展和负载均衡功能,以处理不同的工作负载,并将传入请求高效地分配到多个部署模型的实例上。
- 模型配置和运行时灵活性:包括模型配置和运行时环境的灵活性,使您可以自定义模型设置、调整资源分配,并选择最适合部署要求的运行时环境。
- 支持不同的部署模式:该工具应支持批处理、实时(流式)推断和推断处理器(以REST API或函数调用的形式)。

BentoML
BentoML是一个用于生产环境中的机器学习的开放平台。它简化了模型打包和模型管理,优化了模型服务的工作负载,使其能够在生产规模下运行,并加速了预测服务的创建、部署和监控。
Seldon Core
Seldon Core是一个开源平台,通过框架在Kubernetes上以更简单、更快的方式部署机器学习模型和实验。
它是一个与云无关、安全可靠的系统,在一致的安全性和更新策略下进行维护。
Seldon Core概述:
- 使用我们预打包的推断服务器、自定义服务器或语言包装器,轻松将机器学习模型容器化。
- 强大且丰富的推断图,包括预测器、转换器、路由器、组合器等。
- 元数据溯源,确保每个模型都可以追溯到其对应的训练系统、数据和指标。
- 与Prometheus和Grafana集成的高级可自定义指标。
- 通过模型输入输出请求进行完整审计(与Elasticsearch的日志集成)。
NVIDIA Triton推理服务器
NVIDIA Triton推理服务器是一款开源软件,为深度学习模型提供统一的管理和服务接口。您可以在生产环境中部署和扩展机器学习模型,它支持包括TensorFlow、PyTorch和ONNX在内的多种深度学习框架。
Triton推理服务器对于数据科学家和机器学习工程师来说是一个宝贵的工具,因为它可以帮助他们:
- 快速、简便地部署机器学习模型到生产环境。
- 扩展机器学习模型以满足需求。
- 通过单一接口管理多个机器学习模型。
- 监控机器学习模型的性能。
NVIDIA TensorRT
NVIDIA TensorRT 是一个高性能的深度学习推理优化器和运行时,为推理应用提供低延迟和高吞吐量。您可以使用它加速在 NVIDIA GPU 上的深度学习模型推理。
TensorRT 对于数据科学家和机器学习工程师来说是相关的,因为它可以帮助他们:
- 提高模型的推理性能。TensorRT 可以优化深度学习模型在 NVIDIA GPU 上的推理,从而显著提高性能。
- 减小模型的大小。TensorRT 还可以减小深度学习模型的大小,使其更容易部署和使用。
- 使模型更高效。TensorRT 可以通过针对特定硬件平台优化深度学习模型,使其更高效。
OctoML
OctoML 是一个机器学习加速平台,帮助工程师快速在任何硬件、云提供商或边缘设备上部署机器学习模型。它构建在开源的 Apache TVM 编译器框架项目之上。
OctoML 提供了多个功能,使其成为工程师部署机器学习模型的理想选择。这些功能包括:
- 统一的模型格式,使在不同硬件和云提供商上部署模型变得容易。
- 预训练模型仓库,方便查找和部署预训练模型。
- 模型部署流水线,简化将模型部署到生产环境。
- 模型监控仪表板,监控已部署模型的性能。
模型可观察性
模型可观察性工具可以让您了解已部署的机器学习模型的行为、性能和健康状况。
模型可观察性工具的核心功能
模型可观察性工具应该提供以下功能:
- 日志记录和监控:启用对与已部署的机器学习模型相关的关键指标、事件和系统行为的日志记录和监控,实时查看模型性能、资源使用情况和预测结果。
- 模型性能跟踪:跟踪和分析模型随时间的性能,包括准确度、精确度、召回率或自定义定义的指标,提供全面的模型效果视图。
- 数据漂移和概念漂移检测:包括检测和监控数据漂移(输入数据分布的变化)和概念漂移(输入和输出之间关系的变化)的功能,以便识别和解决与数据模式变化相关的问题。
- 告警和异常检测:工具应提供告警机制,通知机器学习工程师关键事件、性能偏差或模型行为异常,实现及时响应和故障排除。
- 可视化和仪表板:提供可视化功能和可定制的仪表板,创建信息丰富、交互式的模型行为、性能趋势或特征重要性的视觉表达。
- 模型调试和根本原因分析:通过提供调查和诊断与模型性能、预测或输入数据相关的问题的工具,便于模型调试和根本原因分析。
- 合规性和法规要求:提供功能来满足合规性和法规要求,例如数据隐私、可解释性或公平性,确保已部署的模型符合伦理和法律标准。
- 与机器学习工作流和部署流水线的集成:这使您可以将模型可观察性流程纳入开发生命周期中,确保持续监控和改进已部署的机器学习模型。

WhyLabs
WhyLabs 是一个AI可观察性平台,帮助数据科学家和机器学习工程师监控他们的AI模型和驱动它们的数据管道的健康状况。它提供了各种用于监控模型性能、检测漂移并识别数据质量问题的工具。
WhyLabs 对于数据科学家和机器学习工程师来说是相关的,因为它可以帮助他们:
- 确保模型的质量和准确性。
- 检测数据漂移。
- 识别数据质量问题。
Arize AI
Arize AI是一个机器学习可观察性平台,帮助数据科学家和机器学习工程师监控和排除他们的模型在生产中的问题。它提供了各种工具来监测模型性能,检测数据漂移,并识别数据质量问题。
Mona
Mona为数据科学家和机器学习工程师提供了端到端的监控解决方案,提高了他们的AI系统的可见性。它从确保系统行为随时间的单一信息源开始。它继续跟踪关键绩效指标和关于异常行为的主动洞察力,使团队能够采取预防性、高效的纠正措施。
通过提供实时洞察力,Mona使团队能够在问题浮出水面前几周或几个月就能发现问题,从而能够快速排除异常。
Superwise
Superwise是一个模型可观察性平台,帮助数据科学家和机器学习工程师监控和排除他们的模型在生产中的问题。它提供了各种工具来监测模型性能,检测数据漂移,并识别数据质量问题。
Superwise是一个强大的工具,可以帮助您的数据科学家和机器学习工程师确保其AI模型的质量和准确性。
Evidently AI
Evidently AI是一个开源的ML模型监控系统。它帮助在开发、验证或生产监控过程中分析机器学习模型。该工具可以从Pandas DataFrame生成交互式报告。
Aporia
Aporia是一个机器学习可观察性平台。各行业的数据科学和机器学习团队使用Aporia来监控模型行为,保证模型的最佳性能,并轻松扩展生产ML。它支持所有的机器学习用例和模型类型,允许您完全定制您的ML可观察性体验。
负责任的AI
您可以使用负责任的AI工具通过道德、公平和可追溯的技术部署ML模型。
负责任的AI工具的核心功能
负责任的AI工具应提供以下功能:
- 公平性评估:评估和测量ML模型的公平性能力,识别不同人口群体或敏感属性间的潜在偏见和歧视行为。
- 可解释性:提供解释和解读ML模型所做决策的功能。
- 透明性和审计:促进ML模型的透明性和审计,使您能够跟踪和记录整个模型开发和部署过程。
- 稳健性和安全性:关注ML模型的稳健性和安全性,包括对抗对抗性攻击或模型篡改的技术,保护ML系统免受恶意利用或意外漏洞。
- 合规性:帮助您遵守法规要求和行业标准,如数据保护法规(例如GDPR)、行业特定指南或公平性法规。
- 伦理和治理:为您将伦理考虑和治理实践纳入您的ML系统提供指南和框架。
- 偏见减轻:包括减轻ML模型中的偏见的技术和算法,以便您可以解决和减少训练数据或模型预测中可能存在的不希望的偏见。

Arthur AI
Arthur AI是一个机器学习可解释性平台,帮助数据科学家和机器学习工程师理解他们的模型工作原理。它提供了各种工具来解释模型的预测,包括:
- 特征重要性:显示模型预测中每个特征的重要性。
- 敏感性分析:显示在改变单个特征时模型预测如何变化。
- 反事实解释:显示为改变模型预测而需要对输入进行的更改。
Fiddler AI
Fiddler AI是一个模型监控和可解释AI平台,帮助数据科学家和机器学习工程师理解他们的模型工作原理。它提供了各种工具来解释模型的预测,包括:
- 特征重要性:展示每个特征在模型预测中的重要程度。
- 敏感性分析:展示当单个特征发生变化时,模型预测如何改变。
- 反事实解释:展示为改变模型预测需要对输入进行哪些修改。
基础设施:计算、工具和技术
计算和基础设施组件是机器学习(ML)系统的重要组成部分,为训练、部署和运行规模化的ML模型提供必要的资源和环境。
计算和基础设施工具的核心特性
基础设施工具应提供以下能力:
- 资源管理:提供高效的资源管理能力,允许根据ML工作负载的需求分配和配置计算资源,如CPU、GPU或TPU,以确保资源的最佳利用和成本效益。
- 分布式计算:支持分布式计算框架和技术,利用并行处理、分布式训练或数据分区来进行模型训练和推断。
- 监控和性能优化:提供监控和性能优化功能,跟踪ML工作负载的性能,监测资源使用情况,检测计算瓶颈,并优化ML系统的整体性能。
- 高可用性和容错性:通过提供处理硬件故障、网络中断或系统崩溃的机制,确保高可用性和容错性,以维护ML系统的可靠性和不间断运行。
- 与云端和本地基础设施的集成:与云平台、本地基础设施或混合环境集成,利用不同部署模型和基础设施选项的优势,根据特定需求和偏好进行选择。
- 安全和数据隐私:包括加密、访问控制和符合数据保护法规等安全措施和数据隐私保护措施,确保ML操作期间数据的机密性和完整性。
- 容器化和虚拟化:支持容器化和虚拟化技术,使您能够将ML模型、依赖项和运行环境打包成便携式容器。
- 可扩展性和弹性:提供可扩展性和弹性功能,使您能够根据ML工作负载的需求轻松调整计算资源的规模。

Ray开源
Anyscale是Ray的开发者,Ray是一个可扩展计算的统一框架。Ray开源是一个开源的、统一的、分布式框架,用于对AI和Python应用进行扩展。您可以轻松地将任何工作负载或应用从笔记本电脑扩展到云端,无需构建复杂的基础设施。
Nuclio
Nuclio是一个面向数据、I/O和计算密集型工作负载的高性能“无服务器”框架。它与流行的数据科学工具(如Jupyter和Kubeflow)紧密集成,支持各种数据和流媒体源,并支持在CPU和GPU上执行。
Run:ai
Run.ai为AI和深度学习工作负载优化和编排GPU计算资源。它通过将工作负载从底层基础设施中抽象出来,构建了一个共享的资源池,可以根据需要即时提供资源,实现对昂贵GPU的充分利用。
您可以通过基于Web的单一界面保留控制权并获得实时可见性,包括查看和配置运行时、排队和GPU利用率。
MosaicML平台
MosaicML平台在您想要微调LLMs时提供以下关键优势:
- 多个云提供商:可以利用不同云提供商的GPU资源,无需设置帐户和所有所需的集成。
- LLM训练配置:Composer库具有许多经过调优的配置,用于训练各种模型和不同类型的训练目标。
- 托管基础设施:用于编排、优化效率和容错性(即从节点故障中恢复)的托管基础设施。
GPU云服务器
2023年,GPU云供应商也变得非常受欢迎。供应商的产品分为两类:
- GPU云服务器是长期运行的(但可能是可中断的)机器。
- 无服务器GPU是在没有流量时缩减到零的机器。

Paperspace
Paperspace是一个高性能的云计算平台,提供用于构建、训练和部署模型的GPU加速虚拟机。它提供了预配置的实例,配备了流行的框架和工具,简化了数据科学家的设置过程。
Paperspace拥有用户友好的界面和灵活的定价选项,可以轻松访问强大的GPU资源,促进在云中更快地训练和推断机器学习模型。
Lambda
Lambda GPU云是Lambda Labs推出的一种基于云的平台,为机器学习和深度学习任务提供GPU加速的虚拟机。它提供了预安装的框架、用户友好的界面和灵活的定价选项。使用Lambda GPU云,您可以轻松访问强大的云端GPU资源,简化机器学习模型的开发和部署。
无服务器GPU
Modal
Modal是一个提供基于云的加密解决方案的平台。您可以在云中编写和运行代码,并启动自定义容器。您可以在代码中定义容器环境,也可以利用预构建的后端。
Baseten
Baseten是用于构建具有自动扩展、GPU访问、CRON作业和无服务器函数的ML应用程序的无服务器后端。它对模型训练工作流不加限制,适用于使用任何框架训练的任何模型。
向量数据库和数据检索
向量数据库是一种新的数据库管理系统类别,设计用于通过内容而不是人工生成的标签或标记来搜索图像、视频、文本、音频和其他形式的非结构化数据。在过去几年中,一些开源和付费解决方案在数据和软件团队中广受使用。

Pinecone
Pinecone是一个建立在开源Lucene库之上的向量数据库,可轻松构建高性能的向量搜索应用程序。它提供简单的API,方便进行向量的索引和搜索,还支持各种高级功能,如模糊搜索和自动完成。
Qdrant
Qdrant是一个用Rust编写的向量相似性搜索引擎和向量数据库。它提供一个生产就绪的服务,具有方便的API来存储、搜索和管理嵌入。它适用于各种神经网络或基于语义的匹配、分面搜索和其他应用。
Weviate
Weaviate是一个开源的向量数据库,可以存储对象和向量。它结合了向量搜索和结构化过滤的优势,利用云原生数据库的容错性和可扩展性,通过GraphQL、REST和各种语言客户端进行访问。
Chroma
Chroma是一个开源的向量存储和嵌入数据库,旨在简化使用嵌入进行AI应用程序开发。它完全类型化,与LangChain和LlamaIndex等编程框架集成,并提供一个统一的API来开发、测试和运行生产AI应用程序。
Activeloop
Activeloop的Deep Lake是一个向量数据库,为基础模型训练提供支持,并与LangChain、LlamaIndex、Weights & Biases等流行工具集成。它可以:
- 使用多模态数据集对LLMs进行微调
- 存储嵌入和原始数据,并自动进行版本控制,无需重新计算嵌入。
Milvus
Milvus是一个开源的向量数据库,用于支持嵌入相似性搜索和AI应用程序。Milvus使非结构化数据搜索更加便捷,并提供一致的用户体验,无论部署环境如何。
LLMOps和基础模型训练框架
除了“传统”模型训练框架如PyTorch 2.0、TensorFlow 2和其他在过去十年中一直保持稳定的模型训练工具外,2023年出现了一些用于训练和微调基础模型的新工具。

Guardrails
Guardrails是一个开源的Python包,可以让数据科学家为大型语言模型(LLMs)的输出添加结构、类型和质量保证。Guardrails:
– 对LLM的输出进行类似pydantic的验证。这包括语义验证,如检查生成的文本中的偏见,检查生成的代码中的错误等。
– 当验证失败时,采取纠正措施(例如再次询问LLM)。
– 强制执行结构和类型保证(例如JSON)。
LangChain
LangChain是一个用于构建使用大型语言模型(LLMs)的应用程序的开源框架。它提供了许多功能,使使用LLMs变得简单,包括:
- 与LLMs进行交互的API。
- 开箱即用的预训练LLMs。
- 用于针对特定任务微调LLMs的工具。
- 使用LLMs的示例应用程序。
LLamaIndex
LLamaIndex是您的外部数据和LLMs之间的简单灵活的接口。它以易于使用的方式提供以下工具:
- 连接器将您现有的数据源和数据格式(API、PDF、文档、SQL等)连接起来。
- 针对LLMs的结构化和非结构化数据的索引。这些索引有助于抽象出上下文学习的常见样板代码和痛点:
- 以易于访问的格式存储上下文以供插入提示。
- 处理太大的上下文时的提示限制(例如Davinci的4096个令牌)。
- 处理文本分割。
- 用户查询索引的接口(输入提示并获取增强的知识输出)。
- 一个综合的工具集,平衡成本和性能。
DUST
Dust旨在提供一个灵活的框架,用于定义和部署大型语言模型应用程序,而无需编写任何执行代码。它专门用于简化以下操作:
- 在设计大型语言模型应用程序时同时处理多个示例。
- 检查由大型语言模型应用程序的中间步骤产生的模型输出。
- 通过提供粒度细化和自动化的版本控制系统来迭代大型语言模型应用程序的设计。
结论
在2023年,MLOps和LLMOps领域涌现出各种各样的工具和平台,旨在帮助组织和个人有效管理机器学习的整个生命周期或其中的一部分。这个充满活力的生态系统涵盖了开源和商业产品,涉及ML工作流程的各个阶段。该领域正在快速发展,为从业人员提供了丰富的选择,以有效地实现机器学习的操作化。
MLOps工具和平台常见问题解答
2023年机器学习中使用的devops工具有哪些?
机器学习领域中一些流行的DevOps工具包括:
- 持续集成和部署(CI/CD)工具例如Jenkins、GitLab CI/CD和CircleCI越来越受到采用,以实现机器学习模型的自动化测试、集成和部署。
- 容器化工具如Docker和Kubernetes用于打包机器学习模型、依赖和基础设施配置仍然占主导地位。
- 配置管理工具如Ansible、Puppet和Chef用于自动化配置和供应基础设施,随着更可操作和可维护的MLOps平台的出现,它们的使用率较低。
哪些MLOps框架适用于敏感数据?
有几个MLOps框架将数据隐私放在首位,可用于处理敏感数据。其中一些框架包括:
TensorFlow Privacy提供了在TensorFlow上使用隐私保护技术(如差分隐私和联邦学习)对敏感数据进行模型训练的工具和技术。
PySyft通过实现联邦学习、同态加密和安全多方计算(MPC)等技术,实现了安全和私密的机器学习。Intel OpenVINO(Open Visual Inference and Neural Network Optimization)工具包提供了在英特尔硬件上运行机器学习模型的优化功能。它包括增强隐私和安全性的功能,如模型加密、防篡改的模型执行和安全推断。