阿里巴巴集团和蚂蚁集团的研究人员推出了VideoComposer:一种AI模型,它可以将多种模式(如文本、草图、风格甚至运动)组合起来驱动视频生成
当前的视觉生成模型,特别是基于扩散的模型,在自动化内容生成方面取得了巨大的进展。由于计算、数据可扩展性和架构设计的进步,设计师可以使用文本提示作为输入生成逼真的视觉或视频。为了实现无与伦比的保真度和多样性,这些方法经常在大规模视频文本和图像文本数据集上训练一个强大的扩散模型。尽管取得了这些显著的进展,但合成系统的控制度仍然非常差,这严重限制了它的实用性。
大多数当前的方法通过引入超越文本的新条件(如分割地图、修补遮罩或草图)来实现可调的创建。《作曲家》则在此基础上提出了一种基于组合性的新的生成范式,可以在广泛的输入条件下组合图片并实现非凡的灵活性。虽然《作曲家》在空间维度上考虑了多级条件,但由于视频数据的独特特征,它在视频制作方面可能需要帮助。这种困难是由于电影的多层时间结构必须容纳各种时间动态,同时保持单个帧之间的连贯性。因此,将适当的时间条件与空间线索相结合成为允许可编程视频合成的关键。
这些考虑启发了阿里巴巴集团和蚂蚁金服研究人员开发了VideoComposer,为视频合成提供了增强的空间和时间可控性。这是通过首先将视频分解为其组成部分——文本条件、空间条件和关键时间条件,然后使用潜在的扩散模型在这些元素的影响下重构输入视频来实现的。特别地,为了明确记录帧间动态并直接控制内部运动,团队还提供了视频特定的运动矢量作为视频合成期间的一种时间指导。
- 驱动无人驾驶
- DeepMind 推出 AlphaDev:一种深度强化学习代理,可从头开始发现更快的排序算法
- 中国的研究人员介绍了Make-Your-Video:一种通过使用文本和结构指导进行视频转换的方法
此外,他们引入了一个统一的时空编码器(STC-编码器),它采用交叉帧注意机制捕捉顺序输入中的时空关系,从而改善输出电影的跨帧一致性。STC编码器还充当一个接口,允许从各种条件序列中统一有效地使用控制信号。因此,VideoComposer足够适应各种设置下的视频合成,同时保持合成质量的一致性。
重要的是,与传统方法不同,该团队能够使用相对简单的手势(例如箭头显示月球轨迹)操纵运动模式。研究人员进行了多项定性和定量证据,证明了VideoComposer的有效性。研究结果显示,该方法在一系列下游生成活动中获得了显著的创造力水平。
技术。