斯坦福大学的研究人员开发了一种名为“RoentGen”的人工智能(AI)模型,该模型基于稳定扩散,并在大型胸部X射线和放射学数据集上进行了微调
斯坦福大学研究人员开发了名为“RoentGen”的AI模型,基于稳定扩散并微调于大型胸部X射线和放射学数据集
潜在扩散模型(LDMs)是去噪扩散模型的一个子类,最近因为能够以高保真度、多样性和分辨率生成图像而变得重要。这些模型在推理时(例如通过利用文本提示)结合条件机制时,能够对图像生成过程进行细粒度控制。大型多模态数据集(例如LAION5B)中经常用于训练此类模型,该数据集包含数十亿个真实的图像-文本对。经过适当的预训练,LDMs可以用于许多下游任务,并有时被称为基础模型(FM)。
LDMs在部署给最终用户时更容易,因为其去噪过程在相对低维潜在空间中操作,仅需要适度的硬件资源。由于这些模型出色的生成能力,可以产生高保真度的合成数据集,并将其添加到传统的监督式机器学习流程中,以解决训练数据稀缺的情况。这为精心策划、高度注释的医学成像数据集的短缺问题提供了潜在解决方案。这些数据集需要经过纪律训练和熟练的医学专业人员付出大量工作,才能解读微小但在语义上具有重要意义的视觉元素。
尽管医学成像数据集的规模有限、维护不周且不易公开获取,但基于文本的放射学报告通常可以详细解释成像检查中包含的相关医学数据。医疗决策的“副产品”可以用于提取标签,以便自动进行下游任务。然而,与自然人类语言所能描述的可能更为广泛的问题陈述相比,它仍然需要更有限的问题陈述。通过提示相关的医学术语或感兴趣的概念,预训练的文本条件LDMs可以直观地合成医学成像数据。
本研究探讨了如何将一个大型视觉-语言LDM(稳定扩散,SD)适应于医学成像思想,而无需对这些概念进行特定的训练。他们研究了将其应用于生成以简短的领域内文本提示为条件的胸部X射线(CXR),以利用SD流水线组件下的大量图像-文本预训练。CXR是世界上使用最广泛的成像模态之一,因为它们易于获取、价格合理,并能提供有关各种重要医学疾病的信息。本研究首次系统地探索了将域外预训练的LDM领域自适应应用于医学图像的语言条件生成,超越了少量或零样本背景,据作者所知。
为了实现这一目标,评估了SD流水线的代表能力,并对其进行了量化和增强,同时研究了各种方法来增强这个用于表示特定于CXR的医学思想的通用域预训练基础模型。他们提供了RoentGen,一个用于合成高保真度CXR的生成模型,可以使用自由形式的医学语言文本提示插入、组合和修改不同CXR发现的成像外观,并提供与相关医学概念的极其准确的图像对应。
该报告还确定了以下发展:
1. 他们提出了一个全面的框架,用于使用领域特定任务对医学领域自适应的文本到图像模型的事实正确性进行评估,包括i) 使用预训练分类器进行分类、ii) 放射学报告生成和iii) 图像-图像和文本-图像检索。
2. 通过微调U-Net和CLIP(对比语言图像预训练)文本编码器,可以实现最高级别的图像保真度和概念正确性,他们对比了适应SD到新的CXR数据分布的其他方法。
3. 当文本编码器被冻结,只训练U-Net时,原始的CLIP文本编码器可以被领域特定的文本编码器替换,这导致微调后的稳定扩散模型的性能提升。
4. 当SD微调任务用于提取领域内知识并与U-Net一起训练时,文本编码器表达罕见异常等医学概念的能力得到了增强。
5. RoentGen可以在少量图像子集(1.1-5.5k)上进行微调,并可以为后续的图像分类任务提供数据。在他们的设置中,使用真实数据和合成数据进行训练可以提高分类性能5%,仅使用合成数据进行训练的性能与仅使用真实数据进行训练的性能相当。