扩散变压器(DiTs)用于前所未有的架构创新:使用基于Transformer的扩散模型改变图像生成
DiTs Transformer-based diffusion models revolutionizing image generation with unprecedented architectural innovation
机器学习的发展已经经历了一次变革性的转变,随着基于transformer的架构的出现,它彻底改变了自然语言处理、计算机视觉等任务。然而,在图像级生成模型中仍然存在一个值得注意的差距,特别是在扩散模型中,它们主要采用卷积U-Net架构。
与其他领域不同,扩散模型尚未整合这些强大的架构,尽管它们在生成高质量图像方面具有重要意义。纽约大学的研究人员通过引入扩散变压器(DiTs)来解决这一差距,这是一种创新的方法,它用transformer能力取代了传统的U-Net骨干,从而挑战了扩散模型架构中的传统规范。
目前,扩散模型已经成为复杂的图像级生成模型,但它们一直依赖于卷积U-Net。本研究引入了一种突破性的概念——通过DiTs将transformer整合到扩散模型中。这种转变受到了Vision Transformers(ViTs)原理的启发,打破了现状,倡导超越U-Net设计限制的结构变革。这种结构变革使扩散模型能够与更广泛的架构趋势保持一致,借鉴不同领域的最佳实践,提高可扩展性、鲁棒性和效率。
DiTs以Vision Transformers(ViTs)架构为基础,为设计扩散模型提供了一种新的范式。该架构包括关键组件,从“patchy”开始,通过线性和位置嵌入将空间输入转换为令牌序列。DiT块的变体处理条件信息,包括“in-context conditioning”,“cross-attention blocks”,“adaptive layer norm(adaLN) blocks”和“adaLN-zero blocks”。这些块设计和从DiT-S到DiT-XL的不同模型大小构成了一个多功能工具包,用于设计强大的扩散模型。
实验阶段涉及评估不同DiT块设计的性能。训练了四个DiT-XL/2模型,每个模型采用不同的块设计:“in-context”,“cross-attention”,“adaptive layer norm(adaLN)”和“adaLN-zero”。结果强调了adaLN-zero块设计在FID得分方面的持续优势,显示了它的计算效率和调节机制在塑造模型质量方面的关键作用。这一发现强调了adaLN-zero初始化方法的有效性,随后影响了adaLN-zero块在进一步DiT模型探索中的采用。
进一步探索涉及通过操纵模型和补丁大小来扩展DiT配置。可视化展示了通过增加计算能力所实现的显著图像质量提升。这种扩展可以通过扩展transformer维度或增加输入令牌来实现。模型Gflops与FID-50K得分之间的强大相关性强调了计算资源在推动DiT性能改进方面的重要性。在ImageNet数据集上对DiT模型和现有扩散模型进行基准测试,包括256×256和512×512的分辨率,揭示了引人注目的结果。DiT-XL/2模型在两种分辨率下的FID-50K得分中始终优于现有的扩散模型。这种稳健的性能突出了DiT模型在不同尺度下的可扩展性和多功能性。此外,该研究突出了DiT-XL/2模型的内在计算效率,强调了它们在实际应用中的实用性适应性。
总之,引入扩散变压器(DiTs)标志着生成模型的一个革命性时代。通过将变压器的力量与扩散模型相结合,DiTs挑战了传统的架构规范,并为研究和实际应用提供了一个有前途的途径。全面的实验和发现突显了DiTs在推进图像生成领域的潜力,并强调了它们作为一种开创性架构创新的地位。随着DiTs继续重塑图像生成领域,它们与变压器的整合意味着朝着统一多样化的模型架构和推动各个领域的性能提升迈出了一个显著的步骤。