中国的研究人员介绍了Make-Your-Video:一种通过使用文本和结构指导进行视频转换的方法

视频是一种常用的数字媒介,因其能够呈现生动有趣的视觉体验而备受青睐。随着智能手机和数码相机的普及,用相机记录现场事件已经变得十分简单。但是,当制作视频以视觉方式呈现想法时,这个过程变得显著更加困难和昂贵。这通常需要专业的计算机图形学、建模和动画创作经验。幸运的是,文本生成视频的新进展使得只使用文本提示就可以简化这个过程。

图1 显示了当给定文本描述和运动结构作为输入时,该模型如何生成遵循指导意图的时间上连贯的电影。它们展示了几种应用中的视频制作结果,包括(顶部)现实场景设置到视频,(中部)动态3D场景建模到视频,以及(底部)通过从各种来源构建结构指南来重新渲染视频。

他们认为,虽然语言是一个广为人知的灵活描述工具,但可能需要更成功地给予精确的控制。相反,它擅长传达抽象的全局语境。这促使我们研究使用文本来描述特定方向的设置和运动来创建定制视频。由于逐帧深度图是适合视频创建任务的3D感知2D数据,因此它们被特别选择来描述运动结构。他们方法中的结构方向可能相对基本,因此非专业人士可以轻松准备它。

这种架构赋予了生成模型生成逼真内容的自由,而不依赖于精心制作的输入。例如,创建逼真的室外环境可以通过使用办公室中发现的物品的情境设置进行引导(图1(顶部))。物理对象可以用特定的几何部件或任何可用的3D资源替换,使用3D建模软件(图1(中部))。使用已有记录的计算深度是另一种选择(图1(底部))。为了按照其意图定制电影,用户拥有文本和结构指令的灵活性和控制力。

为此,来自中国香港中文大学、腾讯AI实验室和香港科技大学的研究人员使用隐式扩散模型(LDM),该模型采用扩散模型在紧密的低维潜在空间中以减少处理成本。他们建议将空间模块(用于图像合成)和时间模块(用于时间连贯性)的训练分开,用于开放世界视频制作模型。该设计基于两个主要因素:(i)将模型组件分别训练减少了计算资源要求,这对于资源密集型任务尤其重要;(ii)由于图像数据集包含比现有视频数据集更广泛的概念,因此预训练图像合成模型有助于继承多样的视觉概念并将其转移到视频生成。

实现时间连贯性是一项重要任务。他们将它们保留为冻结的空间块,并引入了设计用于使用预先训练的图片LDM学习视频数据集中帧间连贯性的时间块。值得注意的是,他们结合了空间和时间卷积,增加了预先训练模块的灵活性并增强了时间稳定性。此外,他们使用了一种简单但强大的因果注意力掩码方法,以实现更长(即训练期的四倍)的视频合成,极大地降低了质量损失的风险。

定性和定量评估显示,所提出的技术在基线方面表现优异,特别是在时间连贯性和对用户指令的忠实度方面。在操作方法中至关重要的所提出的设计的效率得到了消融实验的支持。此外,他们展示了几个由他们方法实现的有趣应用,并说明了其在现实世界应用方面的潜力。

以下是他们的贡献总结:•他们提供了文本和结构协助,提出了一种有效的制作定制视频的方法。他们的方法在定量和定性方面都产生了最好的结果,用于受控的文本生成视频制作。•他们提供了一种使用预先训练的图像LDM生成视频的方法,该方法继承了丰富的视觉概念并具有良好的时间连贯性。•他们包含了一种时间掩蔽方法,以延长视频合成的持续时间,同时最小化质量损失。