KAIST研究人员提出了SyncDiffusion 通过从感知相似性损失进行梯度下降,同步多个扩散的即插即用模块

KAIST研究人员首次提出SyncDiffusion:利用感知相似性损失进行梯度下降,实现多个扩散即插即用模块的同步

在最近的一篇研究论文中,韩国科学技术院的研究团队介绍了SYNCDIFFUSION,一种创新模块,旨在通过预训练的扩散模型增强全景图像的生成。研究人员识别出全景图像创建中存在的一个重大问题,即在拼接多个固定大小的图像时,会出现明显的接缝。为了解决这个问题,他们提出了SYNCDIFFUSION作为解决方案。

创建具有广阔视野的全景图像对于图像生成模型来说是具有挑战性的,因为它们通常是训练来生成固定大小的图像。在尝试生成全景图像时,简单地将多个图像拼接在一起往往会导致可见的接缝和不连贯的构图。这个问题驱动着对无缝融合图像并保持整体连贯性的创新方法的需求。

生成全景图像的两种常见方法是顺序图像外推和联合扩散。前一种方法涉及通过逐步扩展给定图像来生成最终的全景图,每个步骤中修复重叠区域。然而,这种方法通常难以产生逼真的全景图,并倾向于引入重复的模式,导致结果不理想。

另一方面,联合扩散在多个视角上同时进行逆向生成过程,并对重叠区域中的中间噪声图像进行平均。尽管这种方法可以有效地生成无缝蒙太奇图像,但在保持视角之间内容和风格一致性方面存在不足。结果,它经常将具有不同内容和风格的图像组合到一个全景图中,导致不连贯的输出。

研究人员引入了SYNCDIFFUSION作为一个模块,通过基于感知相似性损失的梯度下降来同步多个扩散。关键创新在于在每个去噪步骤中使用预测去噪图像来计算感知损失的梯度。这种方法为创建连贯的蒙太奇图像提供了有意义的指导,因为它确保图像在融合时无缝衔接,同时保持内容的一致性。

在使用SYNCDIFFUSION和稳定扩散2.0模型进行的一系列实验中,研究人员发现他们的方法明显优于先前的技术。进行的用户研究显示了对SYNCDIFFUSION的显着偏好,偏好率为66.35%,而先前方法只有33.65%。这一显著改进证明了SYNCDIFFUSION在生成连贯全景图像方面的实际优势。

SYNCDIFFUSION是图像生成领域的一个显著增加。它有效地解决了生成无缝和连贯全景图像的挑战,这在该领域一直存在。通过同步多个扩散并应用基于感知相似性损失的梯度下降,SYNCDIFFUSION提高了生成全景图像的质量和连贯性。因此,它为涉及创建全景图像的各种应用提供了一个有价值的工具,并展示了使用梯度下降改进图像生成过程的潜力。