UC Berkeley和UCSF研究人员革命性改变神经视频生成:引入LLM-Grounded视频扩散(LVD)以改善时空动态

美容与时尚专家 UC Berkeley和UCSF研究人员开创性突破神经视频生成技术:LLM-Grounded视频扩散(LVD)引领时空动态优化创新

为了应对从文本提示生成视频的挑战,一组研究人员提出了一种新的方法,称为基于LLM的视频扩散(LVD)。核心问题在于现有模型往往难以创建准确表达在文本提示中描述的复杂时空动态的视频。

为了提供背景,文本到视频生成是一项复杂的任务,因为它需要仅基于文本描述生成视频。虽然先前尝试解决这个问题,但它们往往未能在空间布局和时间动态方面与给定提示相匹配产生视频。

然而,LVD采用了不同的方法。它不是直接从文本输入生成视频,而是首先利用大型语言模型(LLMs)基于文本描述创建动态场景布局(DSLs)。这些DSLs本质上是后续视频生成过程的蓝图或指南。

特别有趣的是研究人员发现,LLMs具备生成这些DSLs的惊人能力,不仅捕捉了空间关系,还包括复杂的时间动态。这对于仅基于文本提示生成准确反映真实场景的视频至关重要。

为了使这个过程更加具体,LVD引入了一种算法,利用DSLs来控制视频扩散模型中的物体级空间关系和时间动态生成。重要的是,该方法不需要 extensive 训练;它是一种无需训练的方法,可以集成到各种具有分类器指导能力的视频扩散模型中。

LVD的结果非常显著。它在生成与文本提示中所描述的期望属性和动作模式完全一致的视频方面,显著优于基础视频扩散模型和其他强基线方法。LVD生成的文本和视频之间的相似度为0.52。不仅文本和视频之间的相似度高,而且视频的质量也超过其他模型。

总之,LVD是一种创新的文本到视频生成方法,利用LLMs的能力生成动态场景布局,最终提高了从复杂文本提示生成的视频的质量和保真度。这种方法在内容创作和视频生成等各种应用中具有开启新可能性的潜力。