使用Amazon SageMaker Studio加速宝马集团的AI/ML发展

‘利用Amazon SageMaker Studio驰快宝马集团的人工智能/机器学习发展’

这篇文章与Marc Neumann、Amor Steinberg和Marinus Krommenhoek来自宝马集团合作撰写。

总部位于德国慕尼黑的宝马集团在全球拥有149,000名员工,在15个国家的30个生产和组装设施进行制造。如今,宝马集团是全球领先的高端汽车和摩托车制造商,也是高级金融和出行服务提供商。宝马集团以智能材料组合、数字化技术转型和资源高效生产等方面的创新领先地位,引领生产技术和可持续发展的趋势。

在一个日益数字化和快速变化的世界中,宝马集团的业务和产品开发战略严重依赖于数据驱动的决策。因此,对数据科学家和机器学习(ML)工程师的需求显著增长。这些技术人员的任务是构建和部署能够改进宝马业务流程质量和效率,并支持明智的领导层决策的模型。

数据科学家和ML工程师需要适用的工具和充足的计算资源来开展工作。因此,宝马几年前在本地建立了一个集中的ML/深度学习基础架构,并不断升级。为了为AI的增长铺平道路,宝马集团需要在可扩展性和弹性方面迈出一大步,同时减少运营开销、软件许可和硬件管理。

在本文中,我们将讨论宝马集团如何与AWS专业服务合作,构建了JuMa管理服务来应对这些挑战。JuMa是宝马集团为其数据分析师、ML工程师和数据科学家提供的人工智能平台服务,提供了一个集成开发环境(IDE)的用户友好工作空间。它由Amazon SageMaker Studio提供支持,并且提供了用于Python的JupyterLab和用于R的Posit Workbench。这种提供能够进行以代码为中心的数据分析和ML的工具,通过提供自助服务能力和基础架构自动化,提高了开发人员的生产力,并与宝马的集中化IT工具景观紧密集成。

JuMa现在对宝马集团的所有数据科学家、ML工程师和数据分析师都可用。该服务通过提供成本有效且可扩展的开发环境,简化了跨宝马的ML开发和生产工作流程(MLOps),促进了全球数据科学和工程团队之间的无缝协作。这使得实验和想法验证周期变得更快。此外,JuMa基础架构基于AWS无服务器和托管服务,有助于减少DevOps团队的运营工作量,并使他们能够专注于实现用例和加速宝马集团的AI创新。

发展本地AI平台所面临的挑战

在引入JuMa服务之前,宝马全球的团队使用两个本地平台提供JupyterHub和RStudio环境。这些平台在CPU、GPU和内存方面的限制过于严格,无法满足宝马集团在AI方面的可扩展性需求。要将这些平台扩展到更多本地硬件、更多软件许可和支持费用,将需要重大的前期投资和高强度的维护工作。此外,这些平台的自助服务能力有限,需要DevOps团队付出高度的运营工作。更重要的是,使用这些平台与宝马集团的云优先战略背道而驰。例如,使用这些平台的团队错过了将其AI/ML原型迁移到在AWS上运行的解决方案工业化的机会。相反,已经直接使用AWS进行实验的数据科学和分析团队也需要负责构建和操作他们的AWS基础架构,同时确保符合宝马集团的内部政策、当地法律和法规要求。这包括一系列的配置和治理活动,从订购AWS账号、限制互联网访问、使用允许列表的软件包到保持Docker镜像的最新状态。

解决方案概述

JuMa是一个完全托管的、经过安全硬化的多租户AI平台服务,在AWS上构建,并以SageMaker Studio为核心。通过依靠AWS无服务器和托管服务作为基础架构的主要构建模块,JuMa DevOps团队无需担心服务器补丁、存储升级或管理其他任何基础设施组件。该服务自动处理所有这些过程,提供一个强大的技术平台,通常处于最新状态,并可立即使用。

JuMa用户可以通过自助服务门户轻松订购工作空间,为他们的团队创建安全和隔离的开发和实验环境。在JuMa工作空间配置完毕后,用户只需点击几下即可启动JupyterLab或Posit工作台环境,并立即开始开发。他们可以使用他们最熟悉的工具和框架进行开发。JuMa与BMW Central IT的一系列服务紧密集成,包括身份和访问管理、角色和权限管理、BMW云数据中心(BMW在AWS上的数据湖)和本地数据库。后者可以帮助AI/ML团队在获得授权的情况下无需构建数据管道即可无缝访问所需数据。此外,可以将笔记本集成到公司的Git代码库中,以便进行版本控制和协作。

该解决方案将与AWS账户管理、配置和定制所涉及的所有技术复杂性抽象化,为AI/ML团队完全专注于AI创新。该平台确保工作空间配置符合BMW的安全性和合规要求。

以下图示描述了架构的高级上下文视图。

用户旅程

宝马AI/ML团队成员可以使用宝马的标准目录服务订购他们的JuMa工作空间。经过线路经理批准后,平台会自动全面为订购的JuMa工作空间提供配置。工作空间的配置流程包括以下步骤(根据架构图中编号)。

  1. 数据科学家团队在宝马的目录中订购新的JuMa工作空间。JuMa会自动为工作空间提供一个新的AWS账户来实现工作空间之间的完全隔离,遵循联合账户结构的模式,详见SageMaker Studio管理最佳实践。
  2. JuMa配置一个工作空间(即一个SageMaker领域),仅允许预定义的实验和开发所需的Amazon SageMaker功能、特定的自定义内核和生命周期配置。它还设置了所需的子网和安全组,以确保笔记本在安全的环境中运行。
  3. 在工作空间配置完毕后,授权用户可以登录JuMa门户,并使用SageMaker预签名URL访问其工作空间中的SageMaker Studio IDE。用户可以选择打开SageMaker Studio私有空间或共享空间。共享空间鼓励团队中不同成员并行在同一个笔记本上工作,而私有空间则适用于独立工作负载的开发环境。
  4. 使用宝马数据门户,用户可以请求访问本地数据库或存储在宝马云数据中心中的数据,并将其用于开发和实验。用户可以进行数据准备和分析、模型训练和验证等操作。

JuMa中开发和验证的AI模型可以通过宝马AI平台的MLOPs服务快速而轻松地部署到生产环境中。该服务为用户提供了一个生产级的ML基础设施和基于SageMaker的流水线,可以在几分钟内通过几次点击进行设置。用户只需将其模型托管到提供的基础设施上,并根据其特定用例设置流水线。这样,AI平台就覆盖了宝马集团的整个AI生命周期。

JuMa特点

根据AWS良好架构框架,JuMa服务的设计和实现遵循最佳实践。每个良好架构支柱的架构决策在以下各节中详细描述。

安全与合规

为确保租户之间的完全隔离,每个工作空间都有自己的AWS帐户,授权用户可以共同合作进行分析任务以及开发和实验AI/ML模型。 JuMa门户本身使用基于策略的隔离实施了运行时隔离,使用AWS身份和访问管理(IAM)和JuMa用户的上下文。有关此策略的更多信息,请参阅基于策略的IAM的运行时隔离

数据科学家只能通过由门户生成的预签名URL通过BMW网络访问其域。在其域内禁用直接Internet访问。他们的Sagemaker域特权是使用Amazon SageMaker角色管理器角色来构建的,以确保对开发所需的AWS服务(如SageMaker,Amazon AthenaAmazon Simple Storage Service(Amazon S3)和AWS Glue)进行了最小特权访问。该角色实施了ML保护措施(例如管理和控制中所述的措施),包括强制要求ML培训在Amazon Virtual Private Cloud(Amazon VPC)或没有Internet的情况下进行,并且只允许使用JuMa的经过审核和最新的SageMaker映像。

由于JuMa是为开发、实验和即席分析而设计的,它实施了保留策略,在30天后删除数据。为了随时访问数据并将其存储到长期存储中,JuMa与BMW Cloud Data Hub和BMW本地数据库无缝集成。

最后,JuMa支持多个区域,以符合特殊的当地法律情况,例如需要在本地处理数据以实现BMW的数据主权。

运营卓越

JuMa平台后端和工作空间都使用AWS无服务器和托管服务实现。使用这些服务有助于最大限度减少BMW平台团队在维护和操作端到端解决方案时的工作量,力求成为无运维服务。工作空间和门户都使用Amazon CloudWatch日志、指标和告警进行监控,以检查关键绩效指标(KPI)并主动通知平台团队任何问题。此外,使用AWS X-Ray分布式跟踪系统在多个组件中跟踪请求并在CloudWatch日志中注释与工作空间相关的上下文。

JuMa基础架构的所有更改都通过基础架构即代码(IaC)进行管理和实现。这有助于减少手动工作和人为错误,提高一致性,并确保在JuMa平台的后端工作空间之间进行可重复和版本控制的变更。具体来说,所有工作空间都是通过基于AWS Step FunctionsAWS CodeBuild和Terraform的入职流程来配置和更新的。因此,在将新的工作空间纳入JuMa平台时不需要手动配置。

成本优化

通过使用AWS无服务器服务,JuMa确保按需扩展性、预批准的实例大小以及根据AI/ML团队的需求使用资源的按使用量付费模式。为进一步优化成本,JuMa平台监视并识别SageMaker Studio中的空闲资源,并自动关闭它们以防止未使用资源产生费用。

可持续性

JuMa用于替代宝马的两个现场分析和深度学习工作负载平台,这些平台即使在不使用时也会消耗大量电力并产生CO2排放。通过将AI/ML工作负载从现场迁移到AWS,宝马将通过废除现场平台来大幅减少其环境影响。

此外,JuMa中实施的空闲资源自动关闭机制、数据保留政策以及工作空间使用报告有助于进一步减少在AWS上运行AI/ML工作负载的环境足迹。

性能效率

通过使用SageMaker Studio,宝马团队可以轻松采用最新的SageMaker功能,以加快实验进程。例如,他们可以使用Amazon SageMaker JumpStart功能来使用最新的预训练开源模型。此外,它还帮助减少了从实验到解决方案工业化所需的AI/ML团队的工作量,因为开发环境提供了相同的AWS核心服务,但仅限于开发能力。

可靠性

SageMaker Studio域以VPC模式部署,以管理Internet访问,并仅允许访问目标AWS服务。该网络在两个可用区部署,以防止单点故障,从而实现对平台用户的更高的可靠性和可用性。

在升级客户环境之前,JuMa工作空间的更改会自动部署并在开发和集成环境中进行测试,使用基础设施即代码和CI/CD流程。

最后,SageMaker Studio域中存储的数据在删除卷后会保留在Amazon Elastic File System(Amazon EFS)中,用于备份目的。

结论

在本文中,我们描述了宝马集团与AWS ProServe合作,在AWS上使用SageMaker Studio和其他AWS无服务器和托管服务开发的全托管AI平台服务。

借助JuMa,宝马的AI/ML团队可以通过加快实验进程和AI解决方案的上市时间来释放新的商业价值。此外,通过从现场平台迁移,宝马可以减少总体运营工作量和成本,同时提高可持续性和整体安全性。

要了解有关在AWS上运行您的AI/ML实验和开发工作负载的更多信息,请访问Amazon SageMaker Studio