认识DragonDiffusion:一种细粒度图像编辑方法,可以在扩散模型上实现拖拽式操作

Introducing DragonDiffusion a fine-grained image editing method that enables drag-and-drop operations on diffusion models.

大规模文本到图像(T2I)扩散模型旨在根据给定的文本/提示生成图像,由于大量的训练数据和大规模的计算机容量的可用性,这些模型得到了快速发展。然而,这种生成能力通常是多样的,使得难以开发适当的提示来生成与用户想法兼容的图像,并基于现有图像进行进一步修改。

图像编辑的要求比图像创建更加多样化。由于潜在空间较小且易于操作,基于GAN的方法在图片编辑中得到了广泛应用。扩散模型比GAN模型更加稳定,并生成更高质量的输出。

北京大学和ARC Lab、腾讯PCG共同完成的一项新研究旨在确定扩散模型是否具有类似的拖拽能力。

实施这一目标的基本困难在于需要一个紧凑且可编辑的潜在空间。许多基于扩散的图像编辑方法都是基于这些中间文本和图像属性之间的相似性进行开发的。研究发现交叉注意力图中单词和物体特征之间存在着很强的局部相似性,可以在编辑中使用。

虽然在大规模T2I扩散生成过程中,文本特征与中间图像特征之间存在着强有力的相关性,但中间图像特征之间也存在着强有力的对应关系。这个特征在DIFT中得到了研究,证明了这些特征之间的对应关系处于高度状态,可以直接比较图像间的相似区域。由于图像元素之间的这种高相似性,团队采用这种方法来实现图像修改。

为了适应扩散模型的中间表示,研究人员设计了一种基于分类器引导的策略DragonDiffusion,通过特征对应损失将编辑信号转化为梯度。所提出的扩散方法在不同阶段使用了两组特征(即引导特征和生成特征)。在强大的图像特征对应关系的指导下,他们修改和完善了生成特征。强大的图像特征对应关系还有助于保持修改后的图像与原始图像之间的内容一致性。

在这个背景下,研究人员还发现了另一项名为Drag-Diffusion的同时研究。该方法使用LORA来使事物看起来与最初的样子相似,并通过优化扩散过程中的单个中间步骤来改进编辑过程。与DragDiffusion不同,这项工作中提出的方法基于分类器引导,所有编辑和内容一致性信号直接来自图像。

DragonDiffusion从原始图像中获取所有内容修改和保留信号。在没有额外的模型微调或训练的情况下,扩散模型在T2I创建能力方面可以直接转移到图像编辑应用中。

广泛的试验表明,所提出的DragonDiffusion可以执行各种细粒度的图像修改任务,例如调整和重新定位对象、改变它们的外观和拖动它们的内容。