SDXL 1.0 内部:稳定性AI新的文本到图像超级模型

SDXL 1.0 内部:新的文本到图像超级模型

这个新版本相比之前的版本有了重大改进,并且与最先进的模型相匹配。

Image Credit: Stability AI

最近我开始了一份专注于人工智能的教育新闻简报,已经有超过160,000名订阅者了。TheSequence是一份没有废话(不会有炒作、新闻等)的面向机器学习的简报,只需5分钟阅读。我们的目标是让您及时了解机器学习项目、研究论文和概念。请通过下方订阅以试一试:

TheSequence | Jesus Rodriguez | Substack

机器学习、人工智能和数据领域发展的最佳信息来源…

thesequence.substack.com

Stability AI通过发布稳定扩散(Stable Diffusion)系列模型,成为了文本到图像革命的中心。在最近几个月中,我们见证了与文本到图像模型相关的研究领域取得的突破,例如3D分类、可控图像编辑、图像个性化、合成数据增强、图形用户界面原型设计等等。

Stability AI吸收了其中一些突破,逐渐改进了Stable Diffusion。这项工作的最新成果是发布了SDXL,这是一个用于文本到图像合成的非常先进的潜在扩散模型。通过这个发布,SDXL现在是Stability AI的最先进的文本到图像生成模型。

现在可以通过ClipDrop、GitHub或者Stability AI平台获取SDXL。

让我们深入了解详情。

SDXL架构

与之前的Stable Diffusion版本不同,SDXL采用了一个显著更大的UNet主干,参数数量增加了三倍,主要是由于引入了更多的注意力块和更大的交叉注意力上下文,这得益于第二个文本编码器的引入。引入了新的条件方案,并且SDXL在多个纵横比上进行了训练。为了进一步提高生成样本的视觉保真度,引入了一个细化模型,利用事后的图像对图像技术。