“概念滑块:在具有LoRA适配器的扩散模型中的精确控制”
概念滑块:精准控制具有LoRA适配器的扩散模型
由于其能力,文本到图像扩散模型在艺术界变得极其流行。然而,包括最先进的框架在内的当前模型通常难以对生成的图像中的视觉概念和属性保持控制,导致不尽如人意的输出结果。大多数模型仅依赖文本提示,这在精确调节天气强度、阴影锐度、面部表情或个人年龄等连续属性方面存在挑战。这使得最终用户难以根据需求调整图像以满足其特定需求。此外,尽管这些生成框架能够生成高质量和逼真的图像,但它们容易出现变形,如变形的脸部或缺少手指。
为了克服这些限制,开发人员已经提出使用可解释的概念滑块。这些滑块承诺为最终用户在扩散模型中对视觉属性具有更大的控制能力,增强图像生成和编辑。扩散模型中的概念滑块通过识别与单个概念相对应的参数方向,并最小化与其他属性干扰的程度来工作。该框架使用示例图像或一组提示来创建这些滑块,从而建立文本和视觉概念的方向。
总的来说,将概念滑块用于文本到图像的扩散模型可以实现最小干扰程度的图像生成,并增强对最终输出的控制能力,同时增加所感知到的逼真度而不改变图像的内容,从而生成逼真的图像。在本文中,我们将深入讨论在文本到图像框架中使用概念滑块的概念,并分析其使用如何导致优质的人工智能生成图像。
概念滑块简介
如前所述,当前的文本到图像扩散框架通常难以控制生成图像中的视觉概念和属性,导致结果不尽人意。此外,这些模型中的许多都难以调节连续属性,进一步导致不尽如人意的输出结果。概念滑块可以帮助减轻这些问题,为内容创作者和最终用户提供增强的图像生成过程控制,并解决当前框架面临的挑战。
大多数当前的文本到图像扩散模型依赖于直接文本提示修改来控制图像属性。尽管这种方法可以实现图像生成,但更改提示可能会严重改变图像的结构。这些框架使用的另一种方法涉及事后技术,通过反转扩散过程并修改交叉注意力来编辑视觉概念。然而,事后技术存在局限性,仅支持有限数量的同时编辑,并需要为每个新概念进行个别干扰。此外,如果不小心设计,它们还可能引入概念交织。
相比之下,概念滑块为图像生成提供了更高效的解决方案。这些轻量级、易于使用的适配器可以应用于预训练模型,以最小干扰的方式在单个干扰过程中增强对所需概念的控制和精度。概念滑块还能够编辑文本描述所不涵盖的视觉概念,这是它们与基于文本提示的编辑方法的区别之处。虽然基于图像的自定义方法可以有效地为基于图像的概念添加标记,但对于编辑图像来说很难实现。而概念滑块则允许最终用户提供少量配对图像来定义所需概念。然后,滑块将推广这个概念并自动应用于其他图像,旨在增强逼真度并修复如手中的失真。
概念滑块致力于学习并解决四个生成式人工智能和扩散框架概念中常见的问题:图像编辑、基于指导的方法、模型编辑和语义方向。
图像编辑
当前的人工智能框架要么专注于使用条件输入来指导图像结构,要么通过操作源图像与目标提示之间的交叉注意力来实现在文本到图像扩散框架中的单一图像编辑。结果是,这些方法只能对单个图像进行实现,并且它们还需要对每个图像进行潜在基础优化,因为基于时间步长的跨提示演化几何结构。
基于指导的方法
使用无分类器指导方法已经显示出提高生成图像质量和提升文本与图像对齐的能力。通过在干扰过程中融入指导术语,该方法改善了扩散框架所固有的有限组合性,并可用于引导扩散框架中的不安全概念。
模特编辑
概念滑块的使用也可以看作是一种模特编辑技术,它采用了低秩适配器来输出一个单一的语义属性,为连续控制提供了空间,以与属性保持一致。然后,通过微调为个性化框架添加新的概念。此外,自定义扩散技术提出了一种改进交叉注意力层以将新的视觉概念整合到预训练扩散模型中的方法。相反,文本扩散技术提出了优化嵌入向量以激活模型能力并引入文本概念到框架中的方法。
GAN中的语义方向
语义属性的操作是生成对抗网络的关键属性之一,其潜在空间轨迹在自我监督方式下保持对齐。在扩散框架中,这些潜在空间轨迹存在于U-Net架构的中间层中,扩散框架中的潜在空间的主要方向捕捉到全局语义。概念滑块训练与特殊属性相对应的低秩子空间,并通过使用文本或图像对来优化全局方向来获得精确和局部化的编辑方向。
概念滑块:架构和工作原理
扩散模型和LoRA或低秩适配器
扩散模型本质上是生成AI框架的一个子类,其原理是通过反转扩散过程来合成数据。正向扩散过程最初向数据添加噪声,从有组织状态转变为完全高斯噪声状态。扩散模型的主要目标是通过逐渐去噪图像来逆转扩散过程,并采样随机高斯噪声生成图像。在现实世界的应用中,扩散框架的主要目标是在将完全高斯噪声作为输入输入时预测真实噪声,并结合额外的输入(如条件和时间步)。
LoRA或低秩适配器技术将微调过程中的权重更新分解,以实现对下游任务上大型预训练框架的高效适应。LoRA技术将针对预训练模型层的权重更新分解为输入和输出维度,约束更新在低维子空间中。
概念滑块
概念滑块的主要目标是作为一种方法,在扩散框架上对LoRA适配器进行微调,以更好地控制面向概念的图像。以下图片展示了这一点。
在针对目标概念的条件下,概念滑块学习低秩参数方向,以增加或减少特定属性的表达。对于模型和目标概念,概念滑块的主要目标是获得一个增强模型,该模型在以目标概念为条件进行编码时,修改了增强和抑制属性的可能性,增加了增强属性的可能性,降低了抑制属性的可能性。通过再参数化和Tweedie公式,该框架引入一个时变噪声过程,并将每个评分表示为去噪预测。此外,概念滑块的解缠目标在保持预训练权重不变的同时微调模块,并在干涉期间修改LoRA公式中引入的缩放因子。该缩放因子还有助于调整编辑的强度,使编辑更强大,而无需重新训练框架,如下图所示。
之前框架使用的编辑方法通过增加指导信息来实现更强的编辑。但是,通过在干涉期间调整缩放因子,可以产生相同的编辑结果,而无需增加重新训练的成本和时间。
学习视觉概念
概念滑块的设计方式是为了控制文本提示无法明确定义的视觉概念,并利用小型数据集在这些概念上进行训练,无论是先配对还是后配对。图像对的对比度使滑块学习视觉概念。此外,概念滑块的训练过程优化了在正向和反向方向上实施的LoRA组件。结果是,LoRA组件与导致两个方向上产生视觉效果的方向保持一致。
概念滑块:实现结果
为了分析性能的提高,开发人员主要在 Stable Diffusion XL上评估了概念滑块的使用,这是一个高分辨率的1024像素框架,另外还对Stable Diffusion v1.4框架进行了实验,每个模型训练了500个时期。
文本概念滑块
为了评估文本概念滑块的性能,它在一组30个基于文本的概念上进行了验证,并将该方法与两个基准进行了比较,这两个基准使用标准文本提示进行固定数量的时间步骤,然后通过添加提示来控制图像的合成。正如下图所示,使用概念滑块会导致不断提高的CLIP分数,以及与没有概念滑块的原始框架相比,LPIPS分数的不断降低。
正如上图所示,使用概念滑块可以在保持图像的整体结构的同时,精确编辑所需的属性。
视觉概念滑块
仅使用文本提示的文本到图像扩散模型通常很难在视觉属性(如面部毛发或眼形)上保持更高程度的控制。为了在细粒度属性上实现更好的控制,概念滑块利用了可选的文本指导和图像数据集。如下图所示,概念滑块针对“眼睛大小”和“眉形”创建了单独的滑块,通过图像对捕捉所需的变换。
通过提供特定的文本以便方向集中在特定的面部区域上,并创建具有针对目标属性的逐步控制的滑块,可以进一步改善结果。
组合滑块
使用概念滑块的一个主要优点是它的组合性,用户可以将多个滑块组合在一起,以获得更高程度的控制,而不是一次专注于单个概念,这归功于概念滑块中使用的低秩滑块方向。此外,由于概念滑块是轻量级的LoRA适配器,它们易于共享,并且还可以轻松叠放在扩散模型上。用户还可以通过下载有趣的滑块集来同时调整多个旋钮,以控制复杂的生成。
以下图像演示了概念滑块的组合能力,多个滑块在每一行从左到右逐步组合,从而允许在概念空间中遍历高维度概念的同时更好地控制。
改善图像质量
尽管最先进的文本到图像扩散框架和大规模生成模型(如Stable Diffusion XL模型)能够生成逼真且高质量的图像,但它们经常出现图像失真(如模糊或变形的物体),即使这些先进框架的参数具备生成高质量输出的潜在能力,使用概念滑块可以通过识别低秩参数方向来减少图像失真,从而发挥这些模型的真正能力。
修复手部
生成真实手部图像一直是扩散框架的难题之一,使用Concept Sliders可以直接控制手部形变的倾向。下图展示了使用“fix hands”概念滑块的效果,该框架可以生成更加真实的手部图像。
修复滑块
使用概念滑块不仅可以生成更加真实的手部图像,还可以改善框架生成的图像的整体逼真度。概念滑块还可以识别单一低秩参数方向,实现图像从常见畸变问题的转变,下图展示了其结果。
总结
在本文中,我们讨论了Concept Sliders,这是一种简单但可扩展的新范例,可以对扩散模型生成的输出进行可解释控制。概念滑块的使用旨在解决当前文本到图像扩散框架面临的问题,这些框架难以对生成图像中包含的视觉概念和属性保持所需的控制,通常导致不尽人意的输出。此外,大多数文本到图像扩散模型难以调节图像中的连续属性,最终常常导致不尽人意的输出。使用概念滑块可能使文本到图像扩散框架能够解决这些问题,为内容创作者和最终用户提供更高程度的图像生成控制,并解决当前框架面临的问题。