遇见 StableSR:一种利用预训练扩散模型的新型AI超分辨率方法

Introducing StableSR a novel AI super-resolution method using pre-trained diffusion models

计算机视觉领域的图像合成任务的扩散模型的发展取得了显著进展。先前的研究已经说明了将扩散先验集成到稳定扩散等合成模型中,可应用于一系列下游内容创作任务,包括图像和视频编辑。

本文的研究超越了内容创作,并探索了在超分辨率(SR)任务中使用扩散先验的潜在优势。超分辨率是一个低级视觉任务,由于对高图像保真度的要求与扩散模型固有的随机性质形成对比,因此引入了额外的挑战。

解决这个挑战的一种常见方法是从头开始训练一个超分辨率模型。这些方法将低分辨率(LR)图像作为额外输入来约束输出空间,以保持保真度。虽然这些方法取得了令人称赞的结果,但它们通常需要大量的计算资源来训练扩散模型。此外,从头开始网络训练可能会损害合成模型中捕获的生成先验,可能导致次优的网络性能。

针对这些限制,研究人员提出了一种替代方法。这种替代方法涉及将约束引入到预训练合成模型的逆扩散过程中。这种范式消除了对广泛模型训练的需求,同时利用了扩散先验的好处。然而,值得注意的是,设计这些约束需要假设对图像退化有先验知识,这通常是未知且复杂的。因此,这种方法的推广能力有限。

为了解决上述限制,研究人员引入了StableSR,一种旨在保留预训练扩散先验的方法,而无需对图像退化进行明确的假设。下面是所提出技术的概述。

与先前的方法相比,该方法不需要将低分辨率(LR)图像与中间输出连接起来,从而避免了从头开始训练扩散模型的需求。StableSR需要对超分辨率(SR)任务进行微调,包括一个轻量级的时间感知编码器和几个专门针对超分辨率(SR)任务的特征调制层。

编码器包含一个时间嵌入层,用于生成时间感知特征,使得扩散模型在不同迭代中对特征进行自适应调制。这不仅提高了训练效率,还保持了生成先验的完整性。此外,时间感知编码器在恢复过程中提供自适应引导,早期迭代提供更强的引导,后期迭代提供较弱的引导,对于改善性能有很大的贡献。

为了解决扩散模型的固有随机性和自动编码器编码过程中的信息丢失问题,StableSR应用了可控的特征包装模块。该模块引入可调节系数,以残差方式使用编码器的多尺度中间特征来细化扩散模型的输出。可调节系数允许在保真度和真实性之间进行连续权衡,适应各种退化水平。

此外,将扩散模型适应任意分辨率的超分辨率任务在历史上存在挑战。为了克服这个问题,StableSR引入了一种渐进聚合采样策略。该方法将图像分割成重叠的块,并在每个扩散迭代中使用高斯核将它们融合在一起。结果是边界的平滑过渡,确保更连贯的输出。

下面的图中展示了StableSR在原始文章中与最先进方法进行比较的一些输出样本。

总之,StableSR提供了一种独特的解决方案,用于将生成先验适应于现实世界的图像超分辨率挑战。这种方法利用了预训练的扩散模型,而不对退化进行明确的假设,通过引入时间感知编码器、可控特征包装模块和渐进聚合采样策略来解决保真度和任意分辨率的问题。StableSR作为一个稳健的基准线,激发了将扩散先验应用于恢复任务的未来研究。

如果您对此感兴趣并希望了解更多信息,请随时参考下面引用的链接。