飞利浦利用建立在亚马逊SageMaker上的MLOps平台加速发展人工智能医疗解决方案

飞利浦借助亚马逊SageMaker上建立的MLOps平台,快速推进人工智能医疗解决方案的发展

这是AWS和飞利浦合作的博客。

飞利浦是一家专注于通过有意义的创新来改善人们生活的健康科技公司。自2014年以来,该公司一直向客户提供飞利浦HealthSuite平台,该平台协调了数十种AWS服务,医疗保健和生命科学公司用以改善患者护理的服务。它与医疗保健提供商、初创公司、大学和其他公司合作开发技术,帮助医生做出更精确的诊断,并为全球数百万人提供更个性化的治疗。

飞利浦创新战略的关键驱动之一是人工智能(AI),它可以创建智能和个性化的产品和服务,从而改善健康结果,提高客户体验,并优化运营效率。

Amazon SageMaker 提供了专为机器学习运营(MLOps)量身定制的工具,帮助自动化和标准化机器学习生命周期中的流程。借助SageMaker MLOps工具,团队可以轻松地在规模上训练、测试、排除故障、部署和管理机器学习模型,提高数据科学家和机器学习工程师的生产力,同时保持模型在生产环境中的性能。

在本文中,我们将介绍飞利浦与AWS合作开发的AI ToolSuite——基于SageMaker的可扩展、安全、合规的机器学习平台。该平台提供了从实验、数据注释、训练、模型部署到可重用模板等多种功能。所有这些功能都是为了帮助多条业务线快速创新,并在规模上进行中央控制。我们将概述第一版平台的关键用例提供的需求、核心组件和实现的成果。最后,我们将详细说明如何使用生成式AI工作负载来实现平台,并快速引入新用户和团队来采用平台。

客户背景

飞利浦在多个领域使用人工智能,如影像学、诊断、治疗、个人健康和连接护理。飞利浦在过去几年中开发了一些人工智能解决方案的例子:

  • 飞利普智享 – 使用唯一的基于压缩感知的深度学习人工智能算法进行MRI成像的基于人工智能的成像技术,可以为各种类型的患者提供更高速度和更好的图像质量
  • 飞利普电子护理管理器 – 这是一种远程护理解决方案,使用人工智能支持重症监护病房中危重病患者的远程护理和管理,通过使用高级分析和临床算法处理来自多个来源的患者数据,并为护理团队提供可操作的见解、警报和建议。
  • 飞利普声波 – 这是一款智能牙刷,使用人工智能分析用户的刷牙行为和口腔健康状况,并提供实时指导和个性化建议,如最佳刷牙时间、压力和覆盖范围,以改善口腔卫生,预防蛀牙和牙龈疾病。

多年来,飞利浦一直在开拓数据驱动的算法开发,以满足医疗保健连续体的创新解决方案。在诊断影像领域,飞利浦开发了大量的医学图像重建和解释、工作流管理和治疗优化的机器学习应用。另外,在患者监测、图像引导治疗、超声波和个人健康团队也一直在创建机器学习算法和应用。然而,由于团队使用的分散的人工智能开发环境,创新受到了阻碍。这些环境范围从个人笔记本电脑和台式机到各种本地计算集群和基于云的基础设施。这种异构性最初为不同的团队在他们早期的人工智能开发工作中取得快速进展提供了便利,但现在阻碍了扩展和提高人工智能开发流程效率的机会。

显然,向统一和标准化的环境转变是必要的,才能真正释放飞利浦数据驱动项目的潜力。

关键的人工智能/机器学习用例和平台需求

人工智能/机器学习能够通过自动化临床医生进行的行政任务,改变医疗保健。例如:

  • 人工智能可以分析医学影像,帮助放射科医师更快速、更准确地诊断疾病
  • 人工智能可以通过分析患者数据和改进主动护理,预测未来的医疗事件
  • 人工智能可以根据患者的需求推荐个性化的治疗方案
  • 人工智能可以从临床笔记中提取和结构化信息,提高记录的效率
  • 人工智能界面可以为患者提供查询、提醒和症状检查等支持

总体而言,人工智能/机器学习承诺降低人为错误,节省时间和成本,优化患者体验,并及时进行个性化干预。

机器学习开发和部署平台的一个关键要求是支持持续迭代的开发和部署过程,如下图所示。

AI资产的开发是从实验室环境开始的,数据被收集和筛选,然后对模型进行训练和验证。当模型准备好并获得批准后,将其部署到真实世界的生产系统中。一旦部署,模型的性能将持续监测。最终,真实世界的性能和反馈将用于进一步改进模型,实现模型训练和部署的全自动化。

更详细的AI工具套件要求是根据三个示例用例推动的:

  • 开发面向边缘的目标检测计算机视觉应用。数据科学团队期望通过基于AI的自动图像注释工作流程加快耗时的标注过程。
  • 使数据科学团队能够管理一组经典机器学习模型,以在多个医疗单位之间进行统计基准测试。该项目需要对模型部署、实验跟踪、模型监测以及整个过程的完全控制,以便进行审计和未来的重新训练。
  • 改善诊断医学影像中深度学习模型的质量和上市时间。现有的计算基础设施无法并行运行多个实验,从而延迟了模型开发。此外,为了监管目的,需要能够在数年内实现模型训练的全面再现性。

非功能性要求

构建可扩展且稳健的AI/ML平台需要仔细考虑非功能性要求。这些要求超出了平台特定功能的范畴,侧重于确保以下内容:

  • 可扩展性 – AI工具套件平台必须能够更有效地扩展飞利浦的洞察生成基础设施,以便处理日益增长的数据量、用户和AI/ML工作负载,而不会牺牲性能。它应该被设计为能够水平和垂直扩展,以满足不断增长的需求,同时提供集中资源管理。
  • 性能 – 该平台必须提供高性能计算能力,以高效处理复杂的AI/ML算法。SageMaker提供了各种实例类型,包括配备强大GPU的实例,可以显著加速模型训练和推理任务。它还应该最大程度地减少延迟和响应时间,以提供实时或准实时的结果。
  • 可靠性 – 该平台必须提供高度可靠和稳健的AI基础设施,覆盖多个可用区。这种多可用区架构应该通过将资源和工作负载分布在不同的数据中心来确保不间断的AI操作。
  • 可用性 – 该平台必须全天候可用,维护和升级期间的停机时间应最少。AI工具套件的高可用性应包括负载平衡、容错架构和主动监控。
  • 安全和治理 – 该平台必须采用强大的安全措施、加密、访问控制、专用角色和身份验证机制,并对异常活动进行持续监控并进行安全审计。
  • 数据管理 – 对于AI/ML平台来说,高效的数据管理至关重要。在保健行业的法规要求中,要求进行特别严格的数据管理。它应该包括数据版本控制、数据谱系、数据治理和数据质量保证等功能,以确保准确可靠的结果。
  • 互操作性 – 该平台应设计为与飞利浦内部的数据存储库轻松集成,实现无缝的数据交换和与第三方应用的协作。
  • 可维护性 – 该平台的架构和代码基底应该组织良好、模块化和可维护。这使飞利浦的机器学习工程师和开发人员可以进行更新、错误修复和未来增强,而不会破坏整个系统。
  • 资源优化 – 该平台应密切监控使用报告,以确保计算资源的高效使用,并根据需求动态分配资源。此外,飞利浦应使用AWS计费和成本管理工具,以确保在使用量超过分配阈值时,团队能够收到通知。
  • 监控和日志记录 – 该平台应使用Amazon CloudWatch提供的全面监控和日志记录功能,这对于追踪系统性能、识别瓶颈和有效解决问题是必要的。
  • 合规性 – 该平台还可以帮助改善基于AI的建议的合规性。通过端到端的数据处理流程实现自动启用再现性和可追溯性,可以自动准备许多强制性文档,如数据谱系报告和模型卡片。
  • 测试和验证 – 必须建立严格的测试和验证程序,以确保AI/ML模型的准确性和可靠性,防止意外偏见。

解决方案概述

AI工具套件是一个端到端、可扩展、快速启动的AI开发环境,提供原生SageMaker和相关的AI/ML服务,具有飞利浦健康套件的安全和隐私保护,并与飞利浦生态系统集成。这个平台有三个角色,每个角色拥有专门的访问权限:

  • 数据科学家 – 准备数据,在协作工作空间中开发和训练模型
  • ML工程师 – 为ML应用程序进行模型部署、监控和维护
  • 数据科学管理员 – 根据团队的请求创建一个项目,为其提供具有用例特定模板的独立环境

该平台的开发经历了多个发布周期,在发现、设计、构建、测试和部署的迭代周期中逐步完善。由于一些应用的独特性,平台的扩展需要嵌入现有的自定义组件,如数据存储或专有的注释工具。下图展示了AI工具套件的三层架构,包括基础设施作为第一层,通用ML组件作为第二层,项目特定模板作为第三层。

第一层包含基础设施:

  • 具有高可用性的参数化访问互联网的网络层
  • 基础设施即代码(IaC)的自助服务部署
  • 使用Amazon SageMaker Studio领域的集成开发环境(IDE)
  • 平台角色(数据科学管理员、数据科学家)
  • 构件存储
  • 日志记录和监控以实现可观测性

第二层包含通用的ML组件:

  • 为每个作业和流水线自动跟踪实验
  • 启动新模型构建更新的模型构建流水线
  • 包括模型训练、评估、注册的模型训练流水线
  • 将模型部署到最终测试和批准的模型部署流水线
  • 模型注册表,用于轻松管理模型版本
  • 专为特定用例创建的项目角色,分配给SageMaker Studio用户
  • 用于存储项目的处理、训练和推理容器映像的映像存储库
  • 用于存储代码构件的代码存储库
  • Amazon简单存储服务(Amazon S3)存储所有项目数据和构件的存储桶

第三层包含项目特定的模板,根据新项目的需求创建自定义组件。例如:

  • 模板1 – 包含用于数据查询和历史跟踪的组件
  • 模板2 – 包含用于数据注释的组件,并具有用于使用专有注释工具的自定义注释工作流程
  • 模板3 – 包括用于自定义容器映像的组件,以定制其开发环境和训练例程,还包括专用的HPC文件系统以及用户从本地IDE访问

下图突出显示了跨多个AWS账户进行开发、暂存和生产的关键AWS服务。

在接下来的部分中,我们将讨论由AWS服务提供支持的平台的关键能力,包括SageMaker,AWS服务目录,CloudWatch,AWS LambdaAmazon Elastic Container Registry(Amazon ECR),Amazon S3,AWS身份和访问管理(IAM)等等。

基础设施即代码

该平台使用IaC,使飞利浦能够自动化基础设施资源的供应和管理。这种方法还将有助于开发、测试或生产的再现性、可扩展性、版本控制、一致性、安全性和可移植性。

访问AWS环境

使用安全保护栏对SageMaker和相关的AI/ML服务进行访问,用于数据准备、模型开发、训练、标注和部署。

隔离和协作

该平台通过分别存储和处理来确保数据隔离,降低未经授权的访问或数据泄露的风险。

该平台促进团队协作,这在通常涉及跨职能团队(包括数据科学家、数据科学管理员和MLOps工程师)的AI项目中至关重要。

基于角色的访问控制

基于角色的访问控制(RBAC)对于通过定义角色和权限的结构化方式来管理权限和简化访问管理至关重要。随着团队和项目的增长,它使权限管理变得简单,为涉及AWS AI/ML项目的不同人员(如数据科学管理员、数据科学家、标注管理员、标注员和MLOps工程师)提供访问控制。

访问数据存储

该平台允许SageMaker访问数据存储,确保数据可以高效地在模型训练和推断中使用,无需在不同的存储位置之间复制或移动数据,从而优化资源利用和降低成本。

使用飞利浦特定的标注工具进行标注

AWS提供了一套与飞利浦特定的内部标注工具完全集成的AI和ML服务,例如SageMaker、Amazon SageMaker Ground Truth和Amazon Cognito。该集成使开发人员能够在AWS环境中使用经过标注的数据训练和部署ML模型。

ML模板

AI ToolSuite平台提供了适用于各种ML工作流程的AWS模板。这些模板是预配置的基础设施设置,针对特定的ML用例,并可以通过SageMaker项目模板、AWS CloudFormation和服务目录等服务进行访问。

与飞利浦GitHub的集成

与GitHub的集成通过提供集中化的版控平台、代码审核和自动化的CI/CD(持续集成和持续部署)流水线,提高了效率,减少了手动任务,提升了生产力。

Visual Studio Code的集成

与Visual Studio Code的集成为编码、调试和管理ML项目提供了统一的环境。这简化了整个ML工作流程,减少了上下文切换,节省时间。该集成还通过使团队成员能够在熟悉的开发环境中共同处理SageMaker项目,利用版本控制系统,并无缝共享代码和笔记本,增强了协作。

用于可复现性和合规性的模型和数据谱系和可追溯性

该平台提供版本管理,有助于跟踪数据科学家随时间对训练和推断数据所做的更改,使结果的复现变得更容易,并了解数据集的演变。

该平台还支持SageMaker实验跟踪,允许终端用户记录和跟踪与其ML实验相关的所有元数据,包括超参数、输入数据、代码和模型工件。这些功能是证明符合监管标准、确保AI/ML工作流程透明和负责任的关键。

用于合规性的AI/ML规范报告生成

AWS保持了各种行业标准和法规的合规认证。AI/ML规范报告是重要的合规文档,展示了对法规要求的遵守。这些报告记录了数据集、模型和代码的版本控制。版本控制对于维护数据谱系、可追溯性和可重复性至关重要,这些对于合规性和审计至关重要。

项目级预算管理

项目级预算管理允许组织对支出设置限制,有助于避免意外成本,并确保机器学习项目保持预算内。通过预算管理,组织可以为每个项目或团队分配具体的预算,帮助团队及时发现资源效率低下或意外成本增加的问题。除了预算管理之外,通过自动关闭空闲笔记本的功能,团队成员可以避免支付未使用资源的费用,还可以在资源不活跃时释放宝贵的资源,使其可供其他任务或用户使用。

成果

AI ToolSuite被设计和实施为飞利浦全企业的机器学习开发和部署平台,面向数据科学家。在设计和开发过程中,考虑了来自所有业务单位的不同需求。在项目早期,飞利浦确定了来自业务团队的冠军,并征求了他们的反馈,帮助评估平台的价值。

以下是取得的成果:

  • 用户采用是飞利浦的一个重要领先指标。来自多个业务单位的用户已经接受培训并加入到平台中,预计这个数字将在2024年持续增长。
  • 对于数据科学用户来说,效率是另一个重要指标。通过AI ToolSuite,新的机器学习开发环境可以在不到一小时的时间内部署,而不是几天的时间。
  • 数据科学团队可以访问可扩展、安全、高效和基于云的计算基础设施。
  • 团队可以并行运行多个模型训练实验,从而将平均训练时间从几周减少至1-3天。
  • 由于环境部署是完全自动化的,几乎不需要云基础设施工程师的参与,从而降低了运营成本。
  • 使用AI ToolSuite显著提高了数据和人工智能成果的整体成熟度,促进了良好的机器学习实践、标准化工作流程和端到端可重复性的使用,这对于医疗行业的合规性至关重要。

展望生成型人工智能

随着机构竞相采用人工智能的最新技术,有必要在组织的安全和治理政策框架内采用新技术。AI ToolSuite的架构为让飞利浦的不同团队能够访问AWS中的生成型人工智能能力提供了出色的蓝图。团队可以使用Amazon SageMaker JumpStart提供的各种开源模型,包括Hugging Face和其他供应商的模型。通过已经建立的访问控制、项目供应和成本控制措施,团队可以从容地开始使用SageMaker内的生成型人工智能能力。

此外,可以根据项目需求为每个账户提供访问Amazon Bedrock的全托管API驱动服务,用户可以通过SageMaker笔记本界面或他们首选的集成开发环境来访问Amazon Bedrock的API。

在受监管场景(如医疗保健行业)中采用生成型人工智能还需要考虑其他因素。需要仔细权衡生成型人工智能应用所创造的价值与相关风险和成本。还需要建立一个管控组织使用生成型人工智能技术的风险和法律框架。需要考虑数据安全、偏见和公平性以及合规性等因素。

结论

飞利浦致力于利用数据驱动算法来革新医疗解决方案。多年来,诊断影像领域的创新已经产生了多个机器学习应用,从图像重建到工作流管理和治疗优化。然而,各种不同的设置,从个人笔记本电脑到本地群集和云基础设施,带来了重大挑战。分离的系统管理、安全措施、支持机制和数据协议阻碍了对总拥有成本的全面视图,同时也使团队间的过渡变得复杂。从研究和开发到生产的转变受到了缺乏衍生和可重复性的影响,使持续模型重新训练变得困难。

作为飞利浦和AWS战略合作的一部分,AI ToolSuite平台被创建为一个可扩展、安全和合规的机器学习平台,使用SageMaker。该平台提供了从实验、数据标注、训练、模型部署到可重复使用模板的能力。所有这些能力都是通过多个循环的发现、设计、构建、测试和部署逐渐建立起来的。这有助于多个业务单元以快速敏捷的方式进行创新,并在规模层面进行统一控制。

这一旅程为那些希望利用人工智能(AI)和机器学习(ML)的力量推动医疗创新和效率,从而最终造福全球患者和医护人员的组织提供了灵感。随着他们在此成功的基础上继续努力,飞利浦(Philips)有望通过创新的AI支持解决方案在改善健康结果方面取得更大的进展。

要了解更多关于飞利浦在AWS上的创新,请访问AWS上的飞利浦