麻省理工学院的研究人员引入重新采样来改善生成过程

基于微分方程的深度生成模型最近成为高维数据建模的强大工具,涵盖了从图像合成到生物学的各个领域。这些模型通过反向迭代地解决微分方程,最终将基本分布(例如扩散模型中的高斯分布)转化为复杂的数据分布。

研究将能够模拟这些可逆过程的先前采样器分为两类:

  1. ODE采样器,其演化在初始随机化后是确定性的
  2. SDE采样器,其生成轨迹是随机的

一些研究表明,这些采样器在各种设置中具有优势。ODE求解器产生的较小离散化误差使得即使在更大的步长下也能获得可用的样本质量。然而,它们的后代质量很快就会达到平稳状态。另一方面,SDE在大NFE(Numerical Functional Evaluations)范围内提高了质量,但代价是更多的采样时间。

在此基础上,麻省理工学院的研究人员开发了一种名为Restart的新采样技术,结合了ODE和SDE的优势。Restart采样算法在固定的时间内由两个子程序的K次迭代组成:一个引入大量噪声的Restart正向过程,有效地“重新启动”原始的反向过程,以及一个执行反向ODE的Restart反向过程。

Restart算法将随机性和漂移解耦,并且在Restart的前向过程中添加的噪声要比早期SDE中与漂移交织的小步长噪声大得多,这增加了对累积误差的收缩效应。每个Restart迭代中引入的收缩效应通过正向和反向循环K次得到增强。Restart能够减少离散化错误,并且由于其确定性的反向过程,可以实现类似ODE的步长。实际上,Restart间隔通常放置在模拟的结束处,因为累积误差较大,以充分利用收缩效果。此外,对于更困难的任务,使用多个Restart周期可以减少早期错误。

实验结果表明,无论是在各种NFE、数据集还是预训练模型上,Restart在质量和速度上均优于最先进的ODE和SDE求解器。特别是在带有VP的CIFAR-10上,Restart相比以前表现最好的SDE,速度提高了10倍;在带有EDM的ImageNet 64×64上,速度提高了2倍,同时也优于小NFE范围内的ODE求解器。

研究人员还将Restart应用于在LAION 512 x 512图像上预训练的稳定扩散模型来将文本转化为图像。通过灵活的无分类器引导强度,Restart在文本-图像对齐/视觉质量(通过CLIP/Aesthetic得分评估)和多样性(通过FID得分测量)之间取得了对先前采样器的改进。

为了充分发挥Restart框架的潜力,团队计划在未来构建一种更具道德的方法,根据模型的错误分析自动选择适当的Restart超参数。