MLCommons介绍MedPerf:一种用于评估AI模型在临床疗效方面的开源平台
MLCommons介绍MedPerf:一种AI模型评估平台
评估人工智能模型在大型多样化的实际数据集上的效果对于医疗人工智能的临床应用至关重要。MLCommons,一个开放的全球工程社区,宣布了一个名为MedPerf的开放基准平台,可以有效评估各种真实医疗数据上的人工智能模型,以提供临床效果,同时保护患者隐私并尽量减少法律和监管方面的顾虑。
如果在来自可能的临床环境子集的数据上训练,医疗人工智能模型可能会对某些患者群体产生无意识的偏见。由于其无法泛化,医疗人工智能在现实世界中可能效果较差。然而,由于隐私、法律和监管方面的考虑,数据所有者不愿意授予更大、更多样化的数据集来训练模型。MedPerf通过使世界各地的数据方便且安全地可供人工智能研究人员访问,消除偏见并增加泛化能力和临床影响力,从而提升医疗人工智能的能力。
在没有患者数据的情况下,MedPerf允许医疗机构以简化、人工监督的方式评估和验证人工智能模型。医疗人工智能模型通过数据提供方在现场远程安装和审查,这是该平台依赖于联合评估的功能所实现的。这种方法缓解了患者信息隐私的担忧,增强了信任,促进了医疗保健利益相关方之间更好的合作。
MedPerf通过与相同的合作伙伴评估多个人工智能模型,使评估过程只需几小时而不是几个月。这种效果在最大的脑胶质母细胞瘤联合分割(FeTS)挑战中得到了验证。FeTS挑战使用MedPerf在6个大洲的32个站点上对41个不同的模型进行了基准测试。
此外,一系列反映学术医学研究的试点试验证实了MedPerf的效果。这些现场和基于云的研究涵盖了脑肿瘤、胰腺和手术工作流程的分割等各种主题。研究结果证实,联合评估基准有助于实现更具可访问性的人工智能医疗护理。
MedPerf推广了fast.ai和其他广泛使用的机器学习库,以促进更广泛的采用。Microsoft Azure OpenAI Services、Epic Cognitive Computing和HF推断点只是一些受支持的API-only和私有人工智能模型。
MedPerf最初是针对放射学设计的,但它是一个通用平台,可应用于任何生物医学领域。得益于其姐妹项目GaNDLF,MedPerf可以支持各种活动,包括数字病理学和组学。为了弥合数据工程差距并让开发人员访问最先进的预训练计算机视觉和自然语言处理模型,MedPerf正在为计算病理学领域的专用低代码库(如PathML或SlideFlow)、Spark NLP和MONAI创建示例。
团队希望他们的工作能增强对医疗人工智能的信心,加快机器学习在临床环境中的传播,并最终使医疗人工智能能够为每位患者量身定制护理,降低医疗成本,提高医生和患者的生活质量。