MIT和Adobe的研究人员介绍了Distribution Matching Distillation(DMD):一种人工智能方法,可以将扩散模型转化为一步生成图像的方法

探索分布匹配蒸馏(DMD):MIT和Adobe研究人员揭示一项人工智能技术,实现一步生成图像的扩散模型转化方法

通过稳定的训练过程,扩散模型已经改变了图片生成的方式,实现了以往无法想象的多样性和真实度。但与GAN和VAE不同,扩散模型的采样是一个耗时的迭代过程,通过逐渐去噪来减少高斯噪声样本中的噪音,以产生复杂的图像。这限制了在将生成管道作为创意工具时的交互量,通常需要进行数十到数百次昂贵的神经网络评估。先前的技术将初始多步扩散采样的噪声→图像映射压缩成一个单次通过的学生网络,以加快采样过程。适应高维复杂的映射无疑是一项艰巨的任务。

改进的一个方面是运行整个去噪轨迹以计算单个损失的高昂成本。当前的技术通过逐渐扩展学生的采样距离来减少这一难题,而不重复原始扩散的去噪周期。但原始的多步扩散模型的性能仍然优于精简版本。相反,研究团队强制要求学生生成的图片与原始扩散模型相同,而不需要噪声和扩散生成的图片之间的对应关系。总体而言,他们的目标背后的推理与其他分布匹配生成模型(如GMMN或GAN)类似。

然而,尽管扩散模型在生成逼真图形方面表现出色,但在将模型扩展到普通的文本到图像数据上时证明是困难的。研究团队通过从先前已经广泛训练过的文本到图像数据中开始使用扩散模型来避免这个问题。为了同时学习数据分布和他们的蒸馏生成器产生的虚假分布,研究团队专门微调了预训练的扩散模型。研究团队可以将去噪后的扩散输出解释为使图片“更逼真”的梯度方向,或者如果扩散模型是在虚假图片上训练的,则为使图片“更假”。因为扩散模型已知用于近似扩散分布上的得分函数。

最后,生成器的梯度更新规则被定义为两者之间的差异,将人工生成的图片推向更逼真、更真实的方向。研究团队还通过使用预训练的扩散模型对真实和虚假分布进行建模,实现了对3D物体的测试时间优化。先前使用一种称为变分分数蒸馏的技术的工作也证明了这一点。研究团队发现一个整体的生成模型也可以使用类似的方法进行训练。此外,研究团队发现,在分布匹配损失存在的情况下,可以预先计算少量多步扩散采样结果,并在他们的一步生成中实施简单的回归损失,作为一种有效的正则化方法。

麻省理工学院和Adobe Research的研究人员提供了分布匹配蒸馏(DMD)技术,这是一种将扩散模型转换为一步图片生成器的过程,并对图片质量几乎没有影响。他们的方法借鉴和吸取了变分分数蒸馏 (VSD),GAN和pix2pix的灵感和见解,通过(1)使用扩散模型来对真实和虚假分布进行建模以及(2)使用简单的回归损失来匹配多步扩散输出,展示了研究团队如何训练一个具有高保真度的一步生成模型。研究团队使用他们的分布匹配蒸馏技术(DMD)在一系列任务上评估训练的模型,包括MS COCO 512×512上的零样本文本到图像生成以及CIFAR-10和ImageNet 64×64上的图像生成。他们的一步生成器在所有基准测试中都比已知的少步扩散方法表现更好,包括一致性模型、渐进蒸馏和修正流。

DMD在ImageNet上实现了2.62的FID值,比一致性模型高出2.4倍。DMD在MS-COCO 2014-30k上获得了11.49的竞争性FID,使用的是与稳定扩散相同的去噪架构。他们的定量和定性分析证明,他们模型生成的图片质量与更昂贵的稳定扩散模型相媲美。值得注意的是,他们的方法将神经网络评估数量减少了100倍,同时保持了这种视觉质量。由于其高效性,DMD在使用FP16推理时可以以每秒20帧的速度生成512×512的图片,为交互应用程序打开了许多可能性。