友谊结束了,单模态已经不再是我的好朋友:CoDi是一种人工智能模型,可以通过可组合扩散实现任何到任何的生成

生成式AI是我们现在几乎每天都听到的术语。我甚至不记得我读过多少关于生成式AI的论文,并在这里总结了它们。它们令人印象深刻,它们所做的事情看起来不真实和神奇,并且它们可以用于许多应用。我们可以通过使用文本提示仅使用文本提示生成图像、视频、音频等等。

近年来,在生成式AI模型方面取得的重大进展使得曾经被认为是不可能的用例成为可能。它始于文本到图像模型,一旦看到它们产生了令人难以置信的好结果,之后对于能够处理多种模态的AI模型的需求就增加了。

最近,对于能够采取任何组合的输入(例如,文本+音频)并生成各种模态输出组合(例如,视频+音频)的模型的需求激增。虽然已经提出了几个模型来解决这个问题,但这些模型在涉及共存和交互的多种模态的现实应用方面存在局限性。

虽然可以通过多步过程链接模态特定的生成模型,但每一步的生成能力本质上仍然有限,导致这种方法繁琐而缓慢。此外,独立生成的单模流在组合时可能缺乏一致性和对齐,使得后处理同步变得具有挑战性。

训练模型以处理任何混合输入模态并灵活生成任何输出组合具有重要的计算和数据要求。许多组模态的可能输入输出组合数量呈指数级增长,而对于许多组模态的对齐训练数据是稀缺或不存在的。

让我们来了解一下CoDi,它被提出来应对这一挑战。 CoDi是一种新颖的神经体系结构,可同时处理和生成任意组合的模态。

CoDi概述。来源:https://arxiv.org/pdf/2305.11846.pdf

CoDi提议在输入条件和生成扩散步骤中对多种模态进行对齐。此外,它引入了一种“桥接对齐”策略来进行对比学习,从而使其能够使用线性数量的训练目标高效地模拟指数级的输入输出组合数量。

CoDi的关键创新在于它利用潜在扩散模型(LDMs)、多模态调节机制和交叉注意力模块的组合,处理任何到任何的生成。通过为每种模态训练单独的LDM并将输入模态投影到共享特征空间中,CoDi可以生成任何模态或模态组合,而不需要针对此类设置进行直接训练。

开发CoDi需要全面的模型设计和对多样化数据资源的培训。首先,培训从每种模态开始的潜在扩散模型(LDM),例如文本、图像、视频和音频。这些模型可以在并行中独立训练,确保使用模态特定的训练数据具有出色的单模生成质量。对于条件交叉模态生成,例如使用音频+语言提示生成图像,输入模态被投影到共享特征空间中,输出LDM关注输入特征的组合。这种多模态调节机制准备了扩散模型,使其能够处理任何模态或模态组合,而不需要直接针对此类设置进行训练。

CoDi模型概述。来源:https://arxiv.org/pdf/2305.11846.pdf

在训练的第二阶段,CoDi 处理涉及同时生成任意组合输出模态的多对多生成策略。这是通过为每个扩散器添加交叉注意力模块和环境编码器来实现的,以将不同LDM的潜变量投影到共享潜空间中。这种无缝生成能力使 CoDi 能够生成任何组合的模态,而无需在所有可能的生成组合上进行训练,从而将训练目标的数量从指数级减少到线性级。