架构消融和蒸馏:AI文本到图像扩散模型高效压缩的路径
文本到图像扩散模型代表了一种开创性的方法,用于从文本提示生成图像。它们利用深度学习和概率建模的力量,捕捉语言和视觉概念之间微妙的关系。通过将生成模型条件化为文本描述,这些模型学习合成逼真的图像,忠实地描绘给定的输入。
文本到图像扩散模型的核心在于扩散的概念,这是受统计物理启发的过程。扩散背后的关键思想是通过遵循学习扩散模型的梯度,迭代地改进最初嘈杂的图像,逐渐使其更加逼真和连贯。通过将这个原则扩展到文本到图像合成,研究人员取得了显著的结果,允许从具有卓越忠实度和多样性的文本提示创建高分辨率、详细的图像。
然而,训练这样的模型面临重大挑战。从文本描述生成高质量图像需要导航可能的视觉解释的广阔而复杂的空间,难以确保在学习过程中的稳定性。稳定扩散通过引导模型捕捉文本的基础语义并生成连贯的图像而不牺牲多样性,从而稳定训练过程。这导致更可靠和可控的图像生成,让艺术家、设计师和开发人员能够以更精确和控制的方式产生迷人的视觉内容。
稳定扩散的一个巨大缺点是其广泛的架构需要大量的计算资源,并导致推断时间延长。为了解决这个问题,提出了几种方法来提高稳定扩散模型(SDM)的效率。一些方法尝试通过提炼预训练的扩散模型来减少去噪步骤的数量,该模型用于指导具有较少采样步骤的类似模型。其他方法采用后训练量化技术来减少模型权重和激活的精度。其结果是减小模型大小,降低内存需求和提高计算效率。
然而,这些技术可实现的减少并不显著。因此,必须探索其他解决方案,例如删除扩散模型中的架构元素。
本文介绍的工作反映了这一动机,并揭示了经典架构压缩技术在实现更小、更快的扩散模型方面的重要潜力。预训练流程如下图所示。
该过程从稳定扩散模型(SDM)的U-Net架构中删除多个残差和注意力块,并使用特征级知识蒸馏(KD)预训练紧凑型(或学生)模型。
关于架构删除的一些有趣见解包括下、上和中阶段。
对于下和上阶段,这种方法减少了U-Net架构中不必要的残差和交叉注意块的数量,同时保留关键的空间信息处理。它与DistilBERT方法相一致,并使使用预训练权重进行初始化成为可能,从而产生更高效、更紧凑的模型。
令人惊讶的是,从原始U-Net中删除中间阶段对生成质量的影响很小,而且可以显著减少参数。这种计算效率和生成质量之间的权衡使其成为优化的可行选择。
根据作者的说法,每个学生在从教师中蒸馏知识后都具有卓越的高质量文本到图像(T2I)合成能力。与1.04亿个参数和FID得分为13.05的稳定扩散相比,具有0.76亿个参数的BK-SDM-Base模型获得了FID得分为15.76。同样,具有0.66亿个参数的BK-SDM-Small模型获得了FID得分为16.98,而具有0.50亿个参数的BK-SDM-Tiny模型获得了FID得分为17.12。
这里报告了一些结果,以直观地比较所提出的方法和现有技术。
这篇关于文本到图像(T2I)扩散模型的新型压缩技术的摘要侧重于智能删除建筑元素和蒸馏策略。