“认识 Med-Flamingo:一种独特的基础模型,能够进行针对医学领域的多模态上下文学习”

Introducing Med-Flamingo a unique base model for multimodal contextual learning in the medical field.

随着人工智能(AI)的日益普及,基础模型展现了令人惊讶的能力,只需提供少量标记实例的信息就能处理各种问题。在上下文学习的理念下,模型能在不调整其参数的情况下从几个示例中学习任务。考虑到医疗和医学领域,上下文学习有潜力显著提升当前医疗AI模型的表现。

尽管上下文学习在医疗数据方面展示了一些出色的能力,但由于医疗数据的内在复杂性和多模式性,以及需要完成的各种任务,将上下文学习应用于医疗环境中存在一定困难。过去已经尝试了一些多模式医疗基础模型,例如专门用于读取胸部X光片的ChexZero和通过与生物学文献中的标题相关联的各种图像进行训练的BiomedCLIP。针对手术录像和电子健康记录(EHR)数据,已经设计了几个模型。然而,这些模型都没有在多模式医学领域中包括上下文学习。

为了解决这些限制,研究人员提出了Med-Flamingo,这是一个独特且高效的基础模型,专门用于医疗领域的多模式上下文学习。这个视觉-语言模型基于Flamingo,它是最早展示上下文学习和少样本学习能力的视觉-语言模型之一。通过从多个医学领域的多模式知识源进行预训练,Med-Flamingo将这些能力扩展到医疗领域。

第一阶段涉及从4000多本医学教科书中创建一个原创的、交错的图像-文本数据集,通过从可靠的医学知识来源中选择数据集以确保正确性。为了评估Med-Flamingo,研究人员专注于生成式医学视觉问题回答(VQA)任务,其中模型直接生成开放式回答,而不是评估预定义的可能性。他们开发了一种新的、真实的评估过程,以人类评估分数作为关键参数。还开发了一个视觉USMLE数据集,该数据集是一个困难的生成式VQA数据集,包含各个专业的困难USMLE风格任务,增加了图像、案例细节和实验室结果。

在三个生成式医学VQA数据集中,Med-Flamingo在临床评估评分上表现出优于早期模型的能力,说明医生更青睐该模型的预测结果。通过回答复杂的医学问题并提供理由,它展示了医学推理能力,这是以前的多模式医学基础模型所未能做到的。然而,模型的有效性可能受到训练数据的多样性和可访问性以及某些医学任务的困难程度的限制。

该团队总结了他们的贡献如下。

  1. Med-Flamingo是第一个专为医学领域设计的多模式少样本学习器,提供了新的临床应用,如理由生成和上下文调节。
  2. 研究人员构建了一个独特的数据集,用于在医学领域进行多模式少样本学习的预训练。
  3. 他们还引入了一个评估数据集,其中包含USMLE风格的问题,将复杂的医学推理纳入视觉问题回答中。
  4. 评估策略进行了批判性分析,并使用专用应用程序进行了深入的临床评估研究,涉及医学评分员评估模型的开放式VQA生成结果。