稳定性AI推出了SDXL Turbo 一款实时文本到图片生成模型
稳定性AI推出了SDXL Turbo:一款实时文本到图片生成模型的创新
Stability AI推出SDXL Turbo,这是一种在文本到图像合成领域取得重大突破的创新蒸馏方法——敌对扩散蒸馏(ADD)。这一突破使得模型能够迅速生成高保真度的图像输出,重新塑造了实时文本到图像转换的方法。
SDXL Turbo是其前身SDXL 1.0的一次进化,引入了ADD这一融合了敌对训练和得分蒸馏的蒸馏技术。这种创新方法使得模型能够以空前高保真度生成实时文本到图像的输出,同时将所需步骤数量从50个减少到仅一个。要深入了解技术细节,请参阅研究论文。
值得注意的是,SDXL Turbo的ADD带来了几个关键优势,令人联想起生成对抗网络(GAN)的特点,比如一步生成图像、绕过其他蒸馏方法中常见的伪影和模糊现象。该论文阐明了这种创新蒸馏技术,重点介绍了该技术对实时图像生成的影响。
针对各种扩散模型变体(如StyleGAN-T++、OpenMUSE、IF-XL、SDXL和LCM-XL)进行的性能评估凸显了SDXL Turbo的优越性。在评估提示符的保真度和图像质量的盲测中,SDXL Turbo以一步胜过了4步LCM-XL配置,甚至超过了50步SDXL配置的仅四步。这些结果突出了SDXL Turbo的出色性能,以极大降低的计算需求保留了卓越的图像质量,胜过了最先进的多步模型。
此外,SDXL Turbo实现的推理速度也是值得注意的。在A100上,该模型以仅207ms(包括提示编码+单个去噪步骤+解码,fp16)生成一个512×512大小的图像,单个UNet前向评估仅使用了67ms。
要亲自体验SDXL Turbo的功能,个人可以通过图像编辑平台Clipdrop进行实时图像生成。这个测试版演示展示了SDXL Turbo在将文本提示转化为令人惊叹的视觉输出方面的能力。Clipdrop可在大多数浏览器上使用,并提供免费试用以探索SDXL Turbo的尖端功能。