Salesforce AI开发了一种名为EDICT的新编辑算法,它可以通过可逆过程在现有的扩散模型中执行文本到图像的扩散生成

Salesforce AI开发的EDICT算法可以通过可逆过程在现有扩散模型中生成文本到图像的扩散

随着技术和人工智能领域的最新进展,出现了许多创新。无论是使用超级热门的ChatGPT模型生成文本还是从文本生成图像,现在都是可能的。目前有几种文本到图像模型,不仅可以根据文本描述产生新的图像,还可以编辑现有的图像。生成图像通常比编辑现有图像更容易,因为在编辑时需要保持许多精细的细节。为了进行准确的基于文本的图像编辑,研究人员开发了一种新算法EDICT-通过耦合变换进行精确扩散反演。EDICT是一种新的算法,能够借助扩散模型执行基于文本的图像编辑。

文本到图像生成是一项任务,机器学习模型通过给定的文本描述来生成图像。该模型学习将文本描述与图片关联起来,并生成符合指定描述的新图像。EDICT使用任何现有的扩散模型执行文本到图像扩散生成。在图像生成中,扩散模型是使用扩散过程生成新图像的生成模型。扩散过程从随机图像开始,然后通过应用一系列变换逐步过滤图像,直到达到与目标图像相似的最终图像。

扩散模型通过文本描述的帮助,训练生成一个从噪声图像到去噪图像的图像。对于编辑图像,将噪声添加到原始图像中,并使用这种部分生成来使用给定的文本执行新的生成。EDICT的工作原理是获得一个噪声图像,当提供原始文本或提示时,它将准确地生成原始图像。这是一种反噪声技术。这样,如果原始文本稍作修改,编辑后的图像将基本上保持不变,仅需要所需的修改。

EDICT团队通过一个例子展示了算法的结果。在通过编辑现有的冲浪狗图像生成一张猫在水中冲浪的图像时,会损失许多细节和细微信息,例如波浪、板子的颜色等。这是因为在该方法中,只是向原始图像添加噪声来生成新图像。在EDICT技术中,通过找到一个能够准确生成原始图像的噪声图像来进行反向生成。该噪声图像然后通过文本说明生成真正的冲浪狗图像。从生成的图像中复制噪声,再用没有噪声的图片向模型进行查询。随后,通过简单地将单词“狗”替换为单词“猫”来调整文本,最后获得一张相对详细的冲浪猫的编辑图像。EDICT只是基于一种可逆的方式,通过使图像的两个完全相同的副本交替向另一个副本添加细节来工作。

这种新方法无疑是有希望的,因为当前的文本到图像生成模型不一致,不能充分保留原始图像的细节。通过反转生成过程,可以保留图像的重要内容。考虑到这些图像生成模型的不断创新和需求,EDICT似乎成为所有现有模型的一个巨大竞争对手。