这篇AI论文揭示了DiffEnc:推进扩散模型以提升生成性能

AI论文揭示了DiffEnc:将扩散模型推向新境界,提升生成性能

“`html

扩散模型是强大的模型,在各种生成任务 – 图像,语音,视频和音乐中很突出。它们能够在图像生成方面实现最先进的性能,具有优秀的视觉质量和密度估计。扩散模型定义了一个扩散步骤的马尔科夫链,逐步向图像添加随机噪声,然后学习逆向过程以生成所需的高质量图像。

扩散模型作为一个分层框架运作,按顺序生成一系列的潜变量,其中每个变量依赖于上一步生成的变量。扩散模型的架构具有以下约束:

  • 将噪声引入数据的过程是直接且固定的。
  • 每一层隐藏变量仅依赖于前一步。
  • 模型中的所有步骤共享相同的参数。

尽管上述限制,扩散模型具有高度的可扩展性和灵活性。在本文中,一组研究人员提出了一个新框架DiffEnf,以进一步提高灵活性,而不影响可扩展性。

与传统的添加噪声方法不同,研究人员引入了一个时变编码器,对扩散过程的均值参数化。编码器在给定时刻本质上预测编码图像。此外,该编码器仅在训练阶段使用,而不在采样过程中使用。这两个特性使DiffEnc比传统扩散模型更加灵活,而不影响采样时间。

为了评估,研究人员将DiffEnc的不同版本与标准的VDM基线在两个流行的数据集上进行了比较:CIFAR-10和MNIST。 DiffEnc-32-4模型在每维比特数(BPD)更低的情况下胜过了之前的作品和VDMv-32模型。这表明,编码器虽然在采样过程中未使用,但对于更好的生成模型有所贡献,而不影响采样时间。结果还表明,总损失的差异主要是由于DiffEnc-32-4的扩散损失的改善,强调了编码器在扩散过程中的有益作用。

研究人员还观察到,增加编码器的大小并没有像VDM那样显著改进平均扩散损失。他们假设为了达到显著的差异,可能需要更长的训练时间,或者可能需要更大的扩散模型来充分利用编码器的能力。

结果表明,添加一个时变编码器可以改善扩散过程。尽管编码器不增加采样时间,但采样过程仍然比生成对抗网络(GANs)要慢。然而,尽管存在这个限制,DiffEnc仍然提高了扩散模型的灵活性,并且能够在CIFAR-10数据集上达到最先进的可能性。此外,研究人员建议该框架可以与其他现有方法(如潜扩散,鉴别器指导和一致性正则化)结合使用,以改善学习的表示,为各种图像生成任务开辟新的可能性。

“`