一致性AI视频编辑器已经到来:TokenFlow是一种使用扩散特征进行一致视频编辑的AI模型
TokenFlow是一种一致性AI视频编辑器,使用扩散特征进行视频编辑的AI模型已经到来
扩散模型是您现在应该熟悉的内容。它们在过去一年中成为人工智能领域的关键话题。这些模型在图像生成方面取得了显著的成功,并开启了一个全新的篇章。
我们正处于文本到图像生成的时代,它们每天都在改进。基于扩散的生成模型,例如MidJourney,在从文本描述中合成高质量图像方面展示了令人难以置信的能力。这些模型使用大规模的图像-文本数据集,使它们能够根据文本提示生成多样且逼真的视觉内容。
文本到图像模型的快速发展促使了图像编辑和内容生成方面的显著进步。如今,用户可以控制生成图像和真实图像的各个方面。这使他们能够更好地表达自己的想法,并以相对快速的方式展示结果,而不是花费数天进行手工绘图。
然而,当将这些令人兴奋的突破应用于视频领域时,情况就不同了。在这里,我们进展相对较慢。尽管出现了大规模的文本到视频生成模型,展示了从文本描述生成视频片段的令人印象深刻的结果,但它们在分辨率、视频长度和可以表示的视频动态复杂性方面仍存在限制。
在使用图像扩散模型进行视频编辑时,一个关键挑战是确保编辑内容在所有视频帧上保持一致。尽管基于图像扩散模型的现有视频编辑方法通过扩展自注意力模块以包括多个帧实现了全局外观一致性,但它们往往无法达到所期望的时间一致性水平。这使得专业人员和半专业人员不得不采用包含额外手工工作的复杂视频编辑流程。
让我们来了解一下TokenFlow,这是一个利用预训练的文本到图像模型的能力来实现文本驱动的自然视频编辑的AI模型。
TokenFlow的主要目标是生成高质量的视频,同时保留原始视频的空间布局和运动,以符合输入文本提示表达的目标编辑。
TokenFlow被引入来解决时间不一致性问题。它明确地将原始帧间视频对应关系应用于编辑。通过认识到自然视频在帧间包含冗余信息,TokenFlow借鉴了扩散模型中视频的内部表示具有类似的特性。
这一洞察力成为TokenFlow的支柱,通过保证编辑后的视频特征在帧间保持一致,实现了一致的编辑。这通过根据原始视频动态传播编辑后的扩散特征来实现,利用了先进的图像扩散模型的生成先验,而无需额外的训练或微调。TokenFlow还可以与现成的基于扩散的图像编辑方法无缝配合使用。