认识CoDi:一种新的跨模态扩散模型,可用于任意合成

在过去的几年中,出现了一些强大的交叉模态模型,能够从一种信息中生成另一种信息,例如将文本转换为文本、图像或音频。一个例子是着名的稳定扩散模型,它可以从输入提示生成惊人的图像描述。

尽管这些模型提供了逼真的结果,但当多种模态同时存在和交互时,这些模型在实际应用中面临着限制。假设我们想从文本描述中生成一张图像,比如“可爱的小狗睡在皮革沙发上”。然而,这还不够。在从文本到图像的模型中获得输出图像后,我们还想听到这种情况的声音,例如小狗在沙发上打呼噜的声音。在这种情况下,我们需要另一个模型将文本或生成的图像转换为声音。因此,虽然将多个特定生成模型连接在多步生成场景中是可能的,但这种方法可能会很麻烦和缓慢。此外,独立生成的单模态流在后处理方式(例如同步视频和音频)中缺乏一致性和对齐。

全面而多功能的任意到任意模型可以同时生成连贯的视频、音频和文本描述,增强整体体验并减少所需时间。

为实现这一目标,开发了可组合扩散(CoDi)模型,用于同时处理和生成任意组合的模态。

下面报告了CoDi的架构概述。

https://arxiv.org/abs/2305.11846

训练模型处理任何混合输入模态和灵活生成各种输出组合涉及显著的计算和数据要求。

这是由于输入和输出模态的可能组合呈指数级增长。此外,对于许多模态组合,获取对齐的训练数据非常有限或不存在,因此不可能使用所有可能的输入输出组合对模型进行训练。为了解决这个挑战,提出了一种策略,将多种模态在输入调节和生成扩散步骤中进行对齐。此外,一种“桥接对齐”策略用于对比学习,以高效地模拟指数级的输入输出组合数量,只需使用有限数量的训练目标。

为了实现具有任意到任意组合能力和保持高质量生成的模型,需要综合的模型设计和训练方法,利用各种数据资源。研究人员采用了综合方法来构建CoDi。首先,他们为每种模态(如文本、图像、视频和音频)训练一个潜在扩散模型(LDM)。这些LDM可以独立并行训练,利用可用的模态特定训练数据,确保每个单独模态的生成质量优秀。该数据包括一个或多个模态的输入和输出模态。

对于条件交叉模态生成,涉及模态的组合,例如使用音频和语言提示生成图像,将输入模态投影到共享特征空间中。这个多模态调节机制准备扩散模型在不需要直接训练特定设置的情况下调节任何模态或模态组合。然后,输出LDM关注于组合的输入特征,实现交叉模态生成。该方法使得CoDi能够有效地处理各种模态组合并生成高质量的输出。

CoDi的第二个训练阶段有助于模型处理多对多生成策略,允许同时生成各种输出模态的不同组合。据目前所知,CoDi是第一个具备这种能力的AI模型。这是通过为每个扩散器引入交叉注意模块和环境编码器V来实现的,该编码器将来自不同LDM的潜在变量投影到共享的潜在空间中。

在此阶段,LDM的参数被冻结,只有交叉注意力参数和V被训练。由于环境编码器对不同模态的表示进行对齐,LDM可以通过使用V插值输出表示与任何一组共同生成的模态进行交叉关注。这种无缝集成使CoDi能够生成任意组合的模态,而无需对每种可能的生成组合进行训练。因此,训练目标的数量从指数级降至线性级,大大提高了训练效率。

以下是该模型为每个生成任务生成的一些输出样本。

https://arxiv.org/abs/2305.11846

这就是CoDi的概述,它是一种高效的跨模态生成模型,用于实现任意组合的生成,具有最先进的质量。如果您感兴趣,可以在以下链接中了解更多关于这种技术的内容。