百度AI研究人员推出VideoGen:一种新的文本到视频生成方法,可以生成高清视频并具有高帧率保真度

Baidu AI researchers introduce VideoGen a new method for text-to-video generation, able to generate high-definition videos with high frame rate fidelity.

文本到图像(T2I)生成系统,例如DALL-E2、Imagen、Cogview、Latent Diffusion等,在近年来取得了长足的进展。另一方面,文本到视频(T2V)生成仍然是一个难题,原因是需要高质量的视觉内容,并且需要与文本相对应的时间上平滑、逼真的动态。此外,大规模的文本-视频组合数据库很难获得。

百度公司最近的一项研究引入了VideoGen,这是一种从文本描述中创建高质量、无缝电影的方法。为了引导T2V的创建,研究人员首先使用T2I模型构建了一张高质量的图像。然后,他们使用级联的潜在视频扩散模块,根据参考图像和文本描述生成一系列高分辨率、平滑的潜在表示。必要时,他们还采用了基于流的方法来在时间上上采样潜在表示序列。最后,团队训练了一个视频解码器,将潜在表示序列转换为实际的视频。

通过使用T2I模型帮助创建参考图像具有两个明显的优点。

  1. 生成的视频的视觉质量得到了改善。该方法利用T2I模型从更大的图像-文本数据集中获取,该数据集比视频-文本数据集更多样且信息丰富。与使用图像-文本对进行联合训练的Imagen Video相比,这种方法在训练阶段更加高效。
  2. 级联的潜在视频扩散模型可以由参考图像引导,使其学习视频动态而不是视觉内容。团队认为,这是优于仅使用T2I模型参数的方法的额外好处。

团队还提到,对于视频解码器来说,文本描述是不必要的,它可以根据潜在表示序列生成电影。通过这样做,他们在更大的数据池中训练了视频解码器,包括视频-文本对和无标签(不配对)的电影。因此,这种方法提高了所创建视频的运动平滑度和逼真度,这要归功于我们使用的高质量视频数据。

研究结果表明,VideoGen在定性和定量评估方面相比以前的文本到视频生成方法代表了重大改进。