个性化生成式人工智能的定制:FABRIC是一种利用迭代反馈使扩散模型个性化的人工智能方法
Personalized generative artificial intelligence customization FABRIC is an AI method that utilizes iterative feedback to personalize diffusion models.
生成式人工智能(Generative AI)是我们现在都熟悉的一个术语。近年来,它们在多个应用中取得了很大的进展,成为重要的工具。
生成式AI的明星是扩散模型(diffusion models)。它们已经成为一类强大的生成模型,彻底改变了图像合成和相关任务。这些模型在生成高质量和多样化图像方面表现出色。与传统的生成模型(例如GAN和VAE)不同,扩散模型通过迭代地改进噪声源来工作,从而实现稳定和连贯的图像生成。
由于扩散模型在训练过程中能够生成高保真度的图像,并具有增强的稳定性和减少模态崩溃的能力,它们已经获得了广泛的应用,包括图像合成、修复和风格转换等多个领域。
然而,它们并不完美。尽管扩散模型具有令人印象深刻的能力,但其中一个挑战在于如何有效地引导模型根据文本描述生成特定的期望输出。通常通过文本提示准确地描述偏好是很麻烦的,有时候它们并不足够,或者模型坚持忽略它们。所以,通常需要对生成的图像进行改进,使其可用。
但你知道你希望模型画出什么。所以,从理论上讲,你是评估生成图像质量的最佳人选;它与你的想象有多接近。如果我们能将这种反馈集成到图像生成流程中,使模型能够理解我们想要看到的内容,那该多好呢?是时候见识一下FABRIC了。
FABRIC(基于注意力的参考图像调节反馈)是一种新颖的方法,可以将迭代反馈集成到扩散模型的生成过程中。
FABRIC利用从先前生成或人为输入中收集的正反馈图像。这使其能够利用参考图像调节来改进未来的结果。这种迭代的工作流程有助于根据用户的偏好对生成的图像进行微调,提供更可控和交互式的文本到图像生成过程。
FABRIC受到了ControlNet的启发,ControlNet引入了根据参考图像生成类似新图像的能力。 FABRIC利用了U-Net中的自注意模块,使其能够“关注”图像中的其他像素,并从参考图像中注入附加信息。通过将加了噪声的参考图像通过Stable Diffusion的U-Net,计算出这些参考注入的键和值,并存储在U-Net的自注意层中,从而使去噪过程能够关注参考图像并融入语义信息。
此外,FABRIC还扩展到包括多轮正反馈,对每个喜欢和不喜欢的图像分别进行独立的U-Net处理,并根据反馈重新加权注意力分数。反馈过程可以根据去噪步骤进行安排,从而实现对生成图像的迭代改进。