扩散模型在图像分类中胜过生成对抗网络(GANs):这项人工智能研究发现,扩散模型在分类任务中表现优于类似的生成-判别方法,如BigBiGAN

扩散模型在图像分类中胜过GANs:研究发现扩散模型在分类任务中表现优于BigBiGAN等生成-判别方法

学习统一、无监督的视觉表示是一项关键但困难的任务。许多计算机视觉问题可以分为两个基本类别:判别式或生成式。通过判别式表示学习,可以训练一个能够为单个图片或图片部分分配标签的模型。要使用生成式学习,可以创建一个能够创建或修改图片并执行涂鸦、超分辨率等相关操作的模型。统一表示学习者同时追求这两个目标,最终的模型可以区分和创建独特的视觉成果。这种类型的统一表示学习是困难的。

第一个能够同时解决这两类问题的深度学习技术之一是BigBiGAN。然而,更现代的方法在分类和生成性能方面超过了BigBiGAN,通过使用更专门的模型。除了BigBiGAN的主要准确性和FID缺点之外,由于其编码器,其训练负担也比其他方法要大得多,速度比可比较的GAN慢且更大,由于其GAN,成本也比基于ResNet的判别式方法更高。PatchVAE旨在通过专注于中级补丁学习来改善VAE在识别任务中的性能。不幸的是,它的分类改进仍明显落后于监督方法,并且图片生成性能也大大受到影响。

最近的研究在生成和分类方面取得了显著的进展,无论是否有监督。统一的自监督表示学习仍然需要解决,因为与自监督图像表示学习的工作数量相比,这个领域仍然需要探索。一些研究人员认为,判别模型和生成模型在本质上是不同的,由于先前的缺陷,一个模型获得的表示对另一个模型来说是不合适的。生成模型本质上需要捕捉低级、像素和纹理特征以实现高质量的重建和创建。

另一方面,判别模型主要依赖于区分对象的高级信息,这些信息在粗糙水平上区分对象,而不是基于特定像素值,而是基于图像内容的语义。尽管有这些假设,但他们指出,像MAE和MAGE这样的当前技术,其中模型必须倾向于低级像素信息,但学习的模型在分类任务中也非常出色,支持BigBiGAN的早期成功。现代扩散模型在实现生成目标方面也取得了相当大的成功。然而,它们的分类潜力大部分尚未开发和研究。马里兰大学的研究人员认为,与其从头开始创建统一的表示学习者,不如利用先进的扩散模型,这些强大的图像生成模型已经具有强大的分类能力。

图1:方法和发现的摘要。他们认为扩散模型可以学习统一的自监督图片表示,既能进行生成,又能进行分类。我们研究了U-Net块数量和扩散噪声时间步骤的特征提取过程。我们还研究了各种特征图池大小。我们研究了一些简单的特征分类架构,如线性(A)、多层感知器(B)、CNN(C)和基于注意力的头部(D)。对于在ImageNet-50上基于冻结特征训练的分类头,计算在块号24和噪声时间步骤90的这些研究的结果显示在右侧。

图1展示了他们在这两个基本不同的挑战上取得的显著成功。与BigBiGAN相比,他们使用扩散模型的策略在图片生成性能和图像分类性能上都有显著优势。因此,他们证明了扩散模型在优化分类和生成方面已经非常接近最先进的统一自监督表示学习者。扩散模型中特征的选择是其中一个关键难题。选择噪声步骤和特征块非常困难,因此他们研究了各种方面的适用性并进行了比较。这些特征图在通道深度和空间分辨率方面也可能相当大。

他们还提供了几个分类头来替换线性分类层以解决这个问题,这可以增强分类结果而不损害生成性能或增加更多参数。他们表明,扩散模型可以用于分类问题,而不需要改变扩散预训练,因为它们在足够的特征提取方面表现出色。因此,他们的方法可以用于任何预训练的扩散模型,并且可以从这些模型的大小、速度和图像质量的未来改进中获益。他们还研究了扩散特征在下游任务的迁移学习中的有效性,并将这些特征与其他方法进行了直接对比。

他们选择了细粒度视觉分类(FGVC)作为下游任务,因为许多FGVC数据集缺乏数据,所以对无监督特征的使用具有吸引力。由于基于扩散的方法不依赖于其他研究中显示会限制FGVC迁移背景下的无监督方法的颜色不变性,因此使用基于扩散的方法特别相关。他们使用了众所周知的中心核对齐(CKA)来比较这些特征,这样可以全面调查特征选择的重要性以及扩散模型特征与ResNets和ViTs的可比性。

他们的贡献如下:

• 在ImageNet上,无条件图像生成的FID为26.21(相对于BigBiGAN的-12.37),线性探测的准确率为61.95%(相对于BigBiGAN的+1.15%),他们表明扩散模型可以作为统一表示学习器。

• 他们提供了分析和蒸馏指南,以从扩散过程中获得最可用的特征表示。

• 对于在分类场景中使用扩散表示,他们将基于注意力的头、CNN和专门的MLP头与标准线性探测进行了对比。

• 使用许多知名数据集,他们研究了扩散模型在细粒度视觉分类(FGVC)作为下游任务中的迁移学习特性。

• 他们使用CKA将扩散模型学到的许多表示与其他架构和预训练技术以及不同层和扩散特征进行了比较。