不,不要把它放在那里!这种人工智能方法可以使用扩散模型进行连续布局编辑

不要放在那里!这种人工智能方法可使用扩散模型进行布局编辑

到目前为止,每个人都对文本到图像模型非常熟悉。它们在去年稳定扩散的发布中进入了我们的视野,并自那时起被用于许多应用中。更重要的是,它们不断变得越来越好,以至于很难区分AI生成的图像和真实图像。

文本到图像模型是一项突破性的技术,它弥合了语言和视觉理解之间的差距。它们具有生成基于文本描述的逼真图像的显著能力。这开启了内容生成和视觉叙事的新层次。

这些模型利用了深度学习和大规模数据集的强大能力。

它们代表了自然语言处理(NLP)和计算机视觉(CV)的尖端融合。它们使用深度神经网络和先进技术将单词的语义含义转化为视觉表达。

整个过程始于文本编码器,它将输入的文本描述编码成有意义的潜在表示。这种表示在语言和图像领域之间起到桥梁的作用。然后,图像解码器接受这个潜在表示,并生成与给定文本相符的图像。通过一个迭代训练过程,在这个过程中,模型从大量的配对文本-图像示例数据集中学习,这些模型逐渐改进了它们捕捉文本描述中所表达细节的能力。

然而,文本到图像模型的主要问题在于它们在图像布局控制方面的限制。尽管该领域最近取得了进展,但通过文本准确表达精确的空间关系仍然具有挑战性。连续布局编辑中的一个重要障碍是在重新排列和编辑对象位置时需要保持原始图像的视觉属性。

如果有一种方式可以克服这个限制呢?那么就是时候见识一下连续布局编辑了。这是一项新的研究,提出了一种针对单输入图像的新颖布局编辑方法。

传统方法在单个图像中学习多个对象的概念一直存在困难。其中一个原因是文本描述通常存在解释空间,使得捕捉特定的空间关系、细粒度的细节和微妙的视觉属性变得困难。此外,传统方法常常难以准确地对齐对象、控制它们的位置或根据提供的文本输入调整整体场景布局。

所提方法的概览。来源:https://arxiv.org/pdf/2306.13078.pdf

为了克服这些限制,连续布局编辑使用了一种称为遮罩文本反演的新方法。通过将不同对象的概念解开并将其嵌入到单独的标记中,所提出的方法通过相应的标记嵌入有效地捕捉每个对象的视觉特征。这一突破使得对对象放置具有精确控制的能力成为可能,从而促进了生成视觉吸引力布局的能力。

它使用一种无需训练的优化方法,通过扩散模型实现布局控制。核心思想是在扩散过程中迭代地优化交叉注意机制。这种优化是由一个区域损失引导的,该损失优先考虑指定对象与布局中其指定区域的对齐。通过鼓励对象的文本嵌入与其对应区域之间更强的交叉注意力,该方法使得对对象位置的精确和灵活控制成为可能,而无需额外的训练或预训练模型的微调。

所提方法可以连续编辑具有多个对象的单个图像的布局。来源:https://arxiv.org/pdf/2306.13078.pdf

连续布局编辑在编辑单个图像的布局方面优于其他基线技术。此外,它还包括一个用户界面,用于交互式布局编辑,提升设计过程,并使用户更加直观。