SambaSafety使用Amazon SageMaker和AWS Step Functions自动化自定义R工作负载,提高驾驶员的安全性

在SambaSafety,他们的使命是通过数据洞察降低风险,促进更安全的社区。自1998年以来,SambaSafety一直是北美领先的云端移动风险管理软件提供商,为具有商业和非商业驾驶员的组织提供服务。SambaSafety向超过15,000个全球雇主和保险公司提供驾驶员风险和合规性监控、在线培训和深入的风险分析,以及风险定价解决方案。通过收集、相关和分析驾驶记录、遥感技术、企业和其他传感器数据,SambaSafety不仅有助于雇主更好地执行安全政策和减少索赔,还有助于保险公司做出明智的承保决策和背景筛查人员进行准确、高效的预雇检查。

并非所有驾驶员都具有相同的风险概况。在驾驶时间越长,风险概况越高。SambaSafety的数据科学家团队开发了复杂的专有建模解决方案,旨在准确量化这种风险概况。然而,他们寻求支持以一种一致可靠的方式部署批处理和实时推理的解决方案。

在本文中,我们将讨论SambaSafety如何使用AWS机器学习(ML)和持续集成和持续交付(CI/CD)工具,为批处理推理部署他们现有的数据科学应用。SambaSafety与AWS高级咨询合作伙伴Firemind合作提供了一种解决方案,使用AWS CodeStar、AWS Step Functions和Amazon SageMaker来处理此工作负载。借助AWS CI/CD和AI/ML产品,SambaSafety的数据科学团队无需改变其现有的开发工作流程,即可利用持续模型培训和推理的优势。

客户案例

SambaSafety的数据科学团队长期以来一直在利用数据的力量来推动业务发展。他们有几位熟练的工程师和科学家构建了深入的模型,提高了平台上风险分析的质量。这个团队面临的挑战与数据科学无关。SambaSafety的数据科学团队需要帮助将他们现有的数据科学工作流程与持续交付解决方案连接起来。

SambaSafety的数据科学团队维护了几个类似脚本的工件作为其开发工作流程的一部分。这些脚本执行多个任务,包括数据预处理、特征工程、模型创建、模型调整和模型比较和验证。当新数据到达他们的环境进行培训时,这些脚本都是手动运行的。此外,这些脚本不执行任何模型版本控制或推理托管。SambaSafety的数据科学团队已经开发了手动解决方案,以推广新模型到生产环境,但这个过程变得耗时且劳动密集。

为了释放SambaSafety高技能的数据科学团队创新新的ML工作负载,SambaSafety需要自动化与维护现有模型相关的手动任务。此外,解决方案需要复制SambaSafety数据科学团队使用的手动工作流程,并根据这些脚本的结果进行决策。最后,解决方案必须与他们现有的代码库集成。SambaSafety数据科学团队使用的是AWS外部的代码库解决方案;最终的流水线必须足够智能,能够根据他们主要用R编写的代码库的更新触发。

解决方案概述

下图说明了解决方案架构,该架构受到SambaSafety交付合作伙伴Firemind维护的众多开源架构之一的启发。

由Firemind为SambaSafety数据科学团队提供的解决方案建立在两个ML管道的基础上。第一个ML管道使用SambaSafety的自定义数据预处理、培训和测试脚本训练模型。生成的模型工件被部署为由SageMaker管理的批处理和实时推理的模型端点。第二个ML管道促进了对托管模型的推理请求。通过这种方式,训练的管道与推理的管道是分离的。

此项目中的复杂之一在于复制SambaSafety数据科学家所采取的手动步骤。Firemind团队使用Step Functions和SageMaker Processing完成了这项任务。Step Functions允许您使用AWS Lambda函数、Amazon Elastic Kubernetes Service(Amazon EKS)工作程序或在这种情况下的SageMaker来在AWS中运行离散任务。SageMaker Processing允许您定义在SageMaker生态系统内的托管ML实例上运行的作业。每次Step Function作业运行都维护其自己的日志、运行历史记录和有关作业成功或失败的详细信息。

Firemind团队使用Step Functions和SageMaker以及Lambda处理培训、调整、部署和推理工作负载的自动化。唯一剩下的是代码更改的持续集成到这个部署流水线。Firemind实现了一个CodeStar项目,维护与SambaSafety现有代码库的连接。当SambaSafety勤奋的数据科学团队发布其代码库的特定分支的更新时,CodeStar会捕捉到这些更改并触发自动化。

结论

SambaSafety的新无服务器MLOps管道对其交付能力产生了重大影响。数据科学和软件开发的整合使他们的团队能够无缝协作。他们的自动化模型部署解决方案将交付时间缩短了高达70%。

SambaSafety还表示:

“通过自动化我们的数据科学模型并将它们整合到软件开发生命周期中,我们能够在服务效率和准确性方面实现新的水平。这使我们能够保持领先地位并向客户提供创新解决方案。我们的客户将因我们解决方案的更快交付时间和更高准确性而获益。”

SambaSafety与AWS账户团队共同解决了问题。 AWS帐户和解决方案架构团队通过从我们强大的合作伙伴网络中获取方案来确定此解决方案。请与您的AWS帐户团队联系,以确定类似的变革性机遇,促进您的业务发展。