遇见Vchitect:一款用于文本到视频(T2V)和图像到视频(I2V)应用的开源大规模综合视频创作系统
遇见Vchitect:一个开源大规模综合视频创作系统,用于文本到视频(T2V)和图像到视频(I2V)应用
最近,人工智能(AI)的普及度呈指数增长,这导致了深度生成模型的一些重大进展。这些模型已应用于视频生成领域,用于创造图像和合成图片。其中著名的例子是自回归模型,如GAN和VAE,它们引发了AI社区使用可比技术创建视频的兴趣潮流。
使用深度生成模型进行视频生成面临挑战,因为由于其小规模,它们的应用受限于特定领域,包括脸部或身体生成。然而,大规模扩散模型和处理能力的新进展为在更广泛的背景下生成视频提供了更多选择。即使在进步方面还存在问题,如以电影级视觉质量制作电影以及处理时序连贯性和主题连续性问题,尤其是在长视频中。
为了克服这些挑战,一支研究团队推出了Vchitect,这是一种大规模通用视频创作系统,用于文本到视频(T2V)和图像到视频(I2V)应用。该系统的设计目标是合成长度不同、具有电影级视觉美感的电影,以促进平滑的摄像运动和叙事连贯性。
- Adobe 研究人员提出了 DMV3D:一种新颖的 3D 生成方法,使用基于 Transformer 的 3D 大型重建模型来去噪多视角扩散
- 为什么理解数据生成过程比数据本身更重要
- 理解独立性以及在因果推断和因果验证中的重要性
Vchitect可以创建任意时长的高清视频,从几秒钟到几分钟不等。它确保场景之间的平滑过渡,并支持一致的叙事。该系统集成了多个模型,以满足视频制作的不同方面,包括:
- LaVie,文本到视频模型(T2V):这是Vchitect的基础范式,将书面描述转化为简洁优秀的电影。
- SEINE,图像到视频生成模型(I2V):此功能增强了系统的适应性,使其能够从静态照片中产生动态内容。
- 短到长(S2L)模型:它创建短视频之间的无缝连接和过渡。它提升了更长视频的整体连贯性和流畅性,使其更具吸引力。
- 主题一致模型:这个模型可以产生具有相同主题的视频。保持不同片段之间的连贯性至关重要,特别是当同一人或物体在多个电影片段中出现时。
- 时间插值模型:它通过增强时间特性来改善生成视频中运动的平滑性,并增强视频内容的整体流畅性。
- 视频超分辨率模型:该模型提高了生成视频的分辨率,同时解决了空间视觉质量问题。这对于保证视觉元素的清晰度和优质性非常重要。
该团队还策划了一个全面多样的视频数据集,名为Vimeo25M。这个收藏具有2500万个文本-视频配对,优先考虑视觉吸引力、多样性和质量。该团队分享了要确保模型经过充分训练并能够处理广泛的事件和内容类型,必须包含广泛多样的数据集。
还进行了一项全面的分析,显示了Vchitect系统中基础T2V模型的优越性。评估中包括视觉质量、连贯性以及能够生成与给定口头描述相对应的电影等方面。