Google AI推出MediaPipe扩散插件,实现设备上可控的文本到图像生成
扩散模型近年来在文本到图像生成方面被广泛应用,并取得了显著的成功,极大地提高了图像质量、推理性能和创造性的可能性。然而,在难以用语言定义的条件下,有效的生成管理仍然是一个挑战。
由谷歌研究人员开发的MediaPipe扩散插件使用户能够在设备上进行可控的文本到图像生成。在这项研究中,我们扩展了我们之前在设备本身上对大型生成模型进行GPU推理的工作,并提出了低成本解决方案,用于可编程的文本到图像生成,可以集成到现有的扩散模型及其低秩调整(LoRA)变体中。
扩散模型中的图像生成采用迭代去噪的方式进行。每个扩散模型的迭代从一个被噪声污染的图像开始,以目标概念的图像结束。通过文本提示进行语言理解显著增强了图像生成过程。文本嵌入与文本到图像生成模型通过交叉注意力层相连。然而,对象的位置和姿态是两个更难以通过文本提示传达的细节的例子。研究人员通过附加模型将来自条件图像的控制信息引入扩散过程中。
- 能够严格检查的LLMs是否能够生成数学证明?了解LeanDojo:一个开源的AI游乐场,提供工具包、基准测试和模型,用于大型语言模型在Lean证明助手中证明形式化定理
- 百度Ernie 3.5在中文语言AI领域脱颖而出:但它真的比ChatGPT更好吗?
- 随着OpenFlamingo团队发布了OpenFlamingo v2,该团队在3B、4B和9B规模上推出了五个新的多模态模型,这些模型表现优于之前的模型
Plug-and-Play、ControlNet和T2I Adapter方法经常用于生成可控的文本到图像输出。Plug-and-Play使用扩散模型的一个副本(对于Stable Diffusion 1.5,参数为860M)和广泛使用的去噪扩散隐式模型(DDIM)反演方法来从输入图像中反演生成过程,以得到初始噪声输入。从复制的扩散模型中提取带有自注意力的空间特征,并将其注入到文本到图像扩散中使用Plug-and-Play。ControlNet构建了扩散模型编码器的可训练副本,并通过一个卷积层(参数为零初始化)将其与编码条件信息连接起来,然后传递给解码器层。不幸的是,这导致了规模的显著增加——对于Stable Diffusion 1.5,约为450M参数,是扩散模型本身的一半。尽管是一个较小的网络(77M参数),T2I Adapter在可控生成方面提供了可比较的结果。条件图片是T2I Adapter的唯一输入,并且所有后续的扩散循环都使用该结果。然而,这种类型的适配器并不适用于移动设备。
MediaPipe扩散插件是我们开发的一个独立网络,使条件生成变得高效、灵活和可扩展。
- 简单连接到训练好的基线模型;可插拔。
- 基于零的训练意味着没有使用原始模型的权重。
- 它是可移植的,因为它几乎不需要额外的费用就可以在移动设备上独立运行。
- 该插件就是它的网络,其结果可以集成到现有模型中,用于将文本转换为图像。扩散模型(蓝色)对应的下采样层接收插件产生的特征。
作为一种用于文本到图像生成的可移植的设备上的范例,MediaPipe扩散插件可作为免费下载。它接受一个条件图像,并使用多尺度特征提取将特征添加到扩散模型的编码器中的适当尺度上。当与文本到图像扩散模型结合使用时,插件模型会为图像生成添加一个条件信号。我们打算让插件网络只有6M个参数,使其成为一个相对简单的模型。为了在移动设备上实现快速推理,MobileNetv2采用了深度卷积和反向瓶颈。
基本特征
- 易于理解的自助式机器学习抽象。使用低代码API或无代码工作室,可以修改、测试、原型和发布应用程序。
- 创新的机器学习(ML)方法应对常见问题,利用谷歌的机器学习专业技术开发。
- 完全优化,包括硬件加速,同时保持小巧高效,可以在仅依靠电池供电的智能手机上平稳运行。