遇见ScaleCrafter:通过预训练扩散模型解锁超高分辨率图像合成

遇见ScaleCrafter:通过预训练扩散模型,实现超高分辨率图像合成的突破

近年来,图像合成技术的发展经历了显着的增长,引起了学术界和行业界的广泛关注。文本到图像生成模型和稳定扩散(SD)是该领域最常用的发展。尽管这些模型已经展示出了令人瞩目的能力,但它们目前只能生成最大分辨率为1024 x 1024像素的图像,这对于广告等高分辨率应用的需求是不足的。

在尝试生成大于这些训练分辨率的图像时出现了问题,主要表现为物体重复和变形的物体结构。如果使用稳定扩散模型在512×512或1024 x 1024的尺寸上生成图像,且其训练集是512 x 512的图像,则随着图像尺寸的增加,对象重复会变得更加棘手。

在生成的图像中,这些问题主要表现为物体重复和物体拓扑不正确。现有的用于创建更高分辨率图像的方法,如基于联合扩散技术和注意力机制的方法,很难充分解决这些问题。研究人员通过确定引起问题的一个关键因素,即卷积核的受限感知域,来研究扩散模型中U-Net架构的结构要素。基本上,像物体重复这样的问题是因为模型的卷积过程在看和理解输入图像内容的能力上受到限制。

研究人员提出了一种名为ScaleCrafter的方法,用于推理时间高分辨率视觉生成。它使用了重扩散,一种简单但非常强大的解决方案,通过在整个图片生成过程中动态调整卷积感知域,使模型能够更有效地处理更高的分辨率和不同的长宽比。该模型可以通过动态调整感受野来提高生成图像的连贯性和质量。该方法还提出了两个进一步的改进:离散卷积和噪声减震无分类器指导。有了这些,该模型可以产生高达4096 x 4096像素尺寸的超高分辨率照片。该方法不需要任何额外的训练或优化阶段,因此是解决高分辨率图片合成中重复和结构问题的可行方法。

该研究进行了全面的测试,结果表明所提出的方法成功解决了物体重复问题,并在生成更高分辨率的图像上取得了尖端成果,特别是在显示复杂纹理细节方面表现卓越。这项研究还展示了利用已经在低分辨率图像上训练过的扩散模型生成高分辨率图像的可能性,而无需进行大量的重新训练,这可能会对超高分辨率图像和视频合成领域的未来工作起到指导作用。

主要的贡献总结如下:

  1. 团队发现,物体重复问题的主要原因是卷积过程的受限感受野,而不是注意力令牌的数量。
  1. 基于这些发现,团队提出了一种重扩散方法,使卷积感受野在推理过程中动态增加,从而解决了问题的根源。
  1. 提出了两种创新策略:离散卷积和噪声减震无分类器指导,专门用于创建超高分辨率图像。
  1. 该方法已应用于文本到视频模型,并在多种扩散模型(包括不同迭代的稳定扩散)上进行了全面评估。这些测试涵盖了广泛的长宽比和图像分辨率,展示了该模型在解决物体重复问题和改善高分辨率图像合成方面的效果。