来自谷歌和约翰霍普金斯大学的研究人员揭示了一种更快、更高效的文本到图片生成方法:克服扩散模型的局限性
美丽时尚界的新宠:超越扩散模型的速度与效率——谷歌与约翰霍普金斯大学的研究团队闪耀新发现
通过产生高质量和多样化的结果,基于大规模数据训练的文本到图像扩散模型在生成任务中占据了重要地位。在最近发展的趋势中,利用扩散以前训练的文本到图像生成模型生成的结果以外部图像条件引导典型的图像到图像转换任务,例如图像改变、增强或高分辨率,已被证明能够显著提升有条件图片生成输出的视觉质量。然而,扩散模型在一个重复精炼的过程中严重依赖于许多迭代,有效地完成这个过程可能需要一定时间。
对于高分辨率图片合成,它们对重复次数的依赖进一步增加。例如,即使在使用先进的采样技术的情况下,优质的视觉质量在最新的文本到图像潜在扩散模型中通常需要20-200个采样步骤。慢的采样过程严重限制了以上所述有条件扩散模型的实际适用性。最近对加速扩散采样的尝试主要使用了蒸馏技术。这些技术在加速采样方面表现出色,在4-8个步骤内完成采样,对生成性能影响较小。最新的研究表明,这些技术也可以用于压缩已经训练过的大规模文本到图像扩散模型。
他们提供了他们精炼模型在各种有条件任务中的输出,展示了我们的建议方法在压缩采样周期中复制扩散先验的能力。
基于这些蒸馏方法,可以利用两阶段蒸馏过程(先蒸馏再有条件微调或先有条件微调再蒸馏)来蒸馏有条件扩散模型。在相同的采样周期下,这两种技术通常提供比未经蒸馏的有条件扩散模型更优秀的结果。然而,它们在跨任务灵活性和学习难度方面有不同的优势。在这项工作中,他们提出了一种从已经训练过的无条件扩散模型中提取有条件扩散模型的新蒸馏方法。他们的方法只有一个阶段,从无条件预训练开始,以蒸馏出的有条件扩散模型结束,与传统的两阶段蒸馏技术不同。
图1说明了他们的精炼模型如何在只需四分之一的采样步骤中通过参考给定的视觉设置预测出高质量的结果。由于这种简化的学习方式,他们的技术更加实用,不再需要之前蒸馏过程中所必需的原始文本到图像数据。在第一阶段使用微调-先有条件方法时,他们避免了对预训练模型中的扩散先验的损害。在相同的采样时间下,广泛的实验数据表明,他们的精炼模型在视觉质量和数量性能方面优于以前的蒸馏技术。
需要进一步研究的一个领域是用于条件生成的参数高效蒸馏技术。他们展示了他们的方法提供了一种参数高效的新蒸馏机制。通过增加一些可学习参数,它可以将无条件扩散模型转化并加速用于条件任务。特别是,他们的公式使其能够与许多已经使用的参数高效微调技术(例如T2I-Adapter和ControlNet)进行集成。他们的蒸馏技术通过使用有条件适配器的新添加的可学习参数和原始扩散模型的固定参数,学习在最小迭代修订的条件任务中复制扩散先验。这一新范式极大地增加了几个条件任务的实用性。