稳定的视频扩散:潜在视频扩散模型面向大数据集

稳定的视频传播:面向大数据集的潜在视频传播模型

生成型人工智能(Generative AI) 已经成为人工智能领域的驱动力有一段时间了,尤其是在生成图像建模领域的进展,特别是使用扩散模型,已显著推动了生成视频模型的发展,不仅在研究中取得了重要进展,而且在现实世界中的应用也取得了显著进展。传统上,生成视频模型要么从头开始训练,要么从预训练图像模型中选择部分或全部微调,并在一组图像和视频数据集上进行训练。

在推进生成视频模型的进展方面,本文将介绍一个稳定视频扩散模型,这是一个能够生成高分辨率、最先进的从图像到视频和从文本到视频内容的潜在视频扩散模型。我们将讨论如何通过添加时间层面、在小型高质量视频数据集上对模型进行微调来改进用于合成2D图像的潜在扩散模型对生成视频模型的能力和效率。我们将深入探讨稳定视频扩散模型的架构和工作原理,并评估其在各项指标上的表现,并将其与当前最先进的视频生成框架进行比较。让我们开始吧。

稳定视频扩散模型和生成视频模型:简介

由于几乎无限的潜力,生成型人工智能(Generative AI)一直是人工智能和机器学习从业者的主要研究课题,并且在过去几年中,生成图像模型的效率和性能都得到了快速发展。生成图像模型的学习成果使研究人员和开发人员在生成视频模型方面取得了进展,从而增强了其实用性和实际应用。然而,大多数旨在改进生成视频模型能力的研究主要关注时间和空间层面的确切排列方式,而很少关注选择正确数据对这些生成模型结果的影响。

多亏了生成图像模型取得的进展,研究人员观察到训练数据分布对生成模型的性能影响确实非常明显且无可争议。此外,研究人员还观察到,在大型多样化数据集上预先训练生成图像模型,然后在较小的高质量数据集上进行微调往往会显著提高性能。传统上,生成视频模型实现了成功的生成图像模型的学习成果,而研究人员尚未对数据和训练策略进行详细研究。稳定视频扩散模型试图通过进入此前未开拓的领域,特别关注数据选择,提高生成视频模型的能力。

最近的生成视频模型依靠扩散模型和文本或图像条件方法来合成多个一致的视频或图像帧。扩散模型以其逐步去噪样本的能力而闻名,通过实施迭代精化过程来从正态分布中学习,并在高分辨率视频和文本到图像合成方面取得了理想的结果。稳定视频扩散模型以同样的原理为核心,通过使用潜在视频扩散模型、生成对抗网络(GANs)甚至是自回归模型一定程度上训练。

稳定视频扩散模型采用了从未被任何生成视频模型实现过的独特策略,它依靠具有固定架构和固定训练策略的潜在视频扩散基线,并评估数据策划的效果。稳定视频扩散模型旨在在生成视频建模领域取得以下贡献。

  1. 提出一套系统而有效的数据策划工作流程,将大量未策划的视频样本转化为高质量数据集,然后这些数据集被生成视频模型使用。
  2. 训练超越现有框架的最先进的图像到视频和文本到视频模型。
  3. 开展领域特定的实验,探索模型的三维理解和运动强先验。

现在,稳定视频扩散模型将潜在视频扩散模型和数据策划技巧的学习作为其基础的核心要素。

潜在视频扩散模型

潜在视频扩散模型或视频-LDM遵循在具有较低计算复杂度的潜在空间中训练主要生成模型的方法,大多数视频-LDM实现了预训练的文本到图像模型,并在预训练架构中添加了时间混合层。因此,大多数视频潜在扩散模型只训练时间层,或者完全跳过训练过程,而不像稳定的视频扩散模型那样对整个框架进行微调。此外,用于合成文本到视频数据的稳定视频扩散模型直接在文本提示上进行自我约束,结果表明所得到的框架可轻松微调为多视图合成或图像到视频模型。

数据整理

数据整理不仅是稳定视频扩散模型的重要组成部分,也是生成模型作为整体的重要组成部分,因为在大规模数据集上预训练大型模型对于提升在不同任务中的性能至关重要,包括语言建模或有区别的文本到图像生成等等。通过利用高效的语言-图像表示的能力,已经成功地在生成图像模型上实现了数据整理,尽管这样的讨论从未专注于开发生成视频模型。开发者在为生成视频模型整理数据时面临几个障碍,并为了应对这些挑战,稳定视频扩散模型采用了三阶段训练策略,提高了结果并显著提升了性能。

高质量视频合成的数据整理

如前一节所讨论的,稳定视频扩散模型采用了三阶段训练策略,提高了结果并显著提升了性能。阶段一是图像预训练阶段,利用2D文本到图像扩散模型进行。阶段二是视频预训练阶段,其中框架在大量视频数据上进行训练。最后,我们有阶段三的视频微调,在该阶段对小型精选高质量高分辨率视频进行改进。

然而,在稳定视频扩散模型实施这三个阶段之前,处理和注释数据尤其重要,因为它作为阶段二或视频预训练阶段的基础,并在确保最佳输出方面起着关键作用。为了确保最大的效率,该框架首先在三个不同的FPS(每秒帧数)级别上实现了级联剪切检测管道,下图展示了需要这个管道的必要性。

接下来,稳定视频扩散模型使用三种不同的合成字幕方法对每个视频剪辑进行注释。下表对比了在稳定扩散框架中使用的数据集在过滤过程之前和之后的情况。

阶段一:图像预训练

稳定视频扩散模型中三阶段流程的第一阶段是图像预训练,为此,初始稳定视频扩散模型框架与预训练图像扩散模型Stable Diffusion 2.1相结合,使其具备更强的视觉表示能力。

阶段二:视频预训练

第二阶段是视频预训练阶段,它基于这样的发现:在多模式生成图像模型中使用数据整理通常会产生更好的结果和更高的效率,以及更强大的有区别图像生成能力。然而,由于缺乏类似的强大的现成表示来过滤掉生成视频模型中的非期望样本,稳定视频扩散模型依赖于人类偏好作为预训练框架使用的合适数据集的输入信号。下图展示了在经过过滤的数据集上预训练框架对小型数据集进行视频预训练的积极影响。

更具体地说,该框架使用不同的方法来筛选潜在视频扩散的子集,并考虑在这些数据集上训练的LVD模型的排名。此外,稳定的视频扩散框架还发现,使用筛选的数据集来训练框架有助于提高框架和扩散模型的性能。此外,数据筛选策略还适用于更大、更相关、更实用的数据集。下图显示了在筛选的数据集上预训练框架对小型数据集的视频预训练的整体性能的积极影响。

第三阶段:高质量微调

到第二阶段为止,稳定的视频扩散框架专注于在视频预训练之前提高性能,在第三阶段,该框架侧重于优化或进一步提高框架在高质量视频微调后的性能,并介绍了框架如何从第二阶段过渡到第三阶段。在第三阶段,框架借鉴了来自潜在图像扩散模型的训练技术,并增加了训练示例的分辨率。为了分析这种方法的有效性,该框架将其与三个仅在初始化方面有所不同的相同模型进行了比较。第一个相同模型的权重被初始化,并跳过了视频训练过程,而其余两个相同模型的权重则是从其他潜在视频模型中借用的。

结果与发现

现在是时候看看稳定的视频扩散框架在实际任务中的表现以及与当前最先进的框架相比如何了。稳定的视频扩散框架首先使用最佳数据方法训练基础模型,然后进行微调以生成几个最先进的模型,每个模型执行特定的任务。

上图代表由该框架生成的高分辨率图像到视频样本,而下图则展示了该框架生成高质量文本到视频样本的能力。

预训练基础模型

正如前面所讨论的,稳定视频扩散模型是建立在稳定扩散2.1框架上的,在最近的研究结果基础上,开发人员采用噪声表以及增加噪声来获得分辨率更高的图像在训练图像扩散模型时是至关重要的。得益于这种方法,稳定的视频扩散基础模型学习到了强大的运动表示,并且在此过程中,在零样本设置下,优于基准模型的文本到视频生成,并且结果显示在下表中。

帧插值和多视角生成

稳定的视频扩散框架通过对多视角数据集进行图像到视频模型的微调,以获取物体的多个新视角,这个模型被称为SVD-MV或稳定的视频扩散-多视角模型。原始的SVD模型在两个数据集的帮助下进行微调,以便框架接收单个图像并返回一系列多视角图像作为输出。

正如下面的图片中所示,稳定的视频扩散多视角框架的性能与最先进的基于零样本的多视角框架相媲美,并且结果清楚地展示了SVD-MV利用从原始SVD框架中获得的学习的能力来进行多视角图像生成。此外,结果还表明,将该模型运行相对较少的迭代次数有助于提供最佳结果,这也是从SVD框架微调的大多数模型的情况。

在上图中,指标显示在左侧,可以看出,稳定视频扩散多视图框架在表现上优于Scratch-MV和SD2.1多视图框架。第二张图片展示了训练迭代次数对框架整体性能的影响,SVD-MV框架提供可持续的结果。

总结

在本文中,我们讨论了稳定视频扩散,这是一个能够生成高分辨率、处于最新技术水平的图像到视频和文本到视频内容的潜在视频扩散模型。稳定视频扩散模型采用了一种独特的策略,此策略从未被任何生成视频模型实施过,因为它依赖于具有固定架构和固定训练策略的潜在视频扩散基线,以及评估数据整理效果的方法。

我们已经讨论了如何通过添加时间层和对小规模高质量视频数据集进行模型微调,改进了为合成2D图像而训练的潜在扩散模型对生成视频模型的效能和效率。为了收集预训练数据,该框架进行了缩放研究并遵循了系统化的数据收集方法,最终提出了一种整理大量视频数据并将嘈杂视频转化为适用于生成视频模型的输入数据的方法。

此外,稳定视频扩散框架采用了三个不同的视频模型训练阶段,这些阶段独立进行分析以评估它们对框架性能的影响。最终,该框架输出了一个强大到足以对模型进行优化视频合成的视频表示,并且结果与已经使用的最新视频生成模型可媲美。