谷歌研究人员提出了一种新的人工智能方法,用于对场景动态建模的图像空间先验

Google researchers propose a new AI method for image space prior modeling of dynamic scenes.

即使是看似静止的图像也会因风、水流、呼吸或其他自然节奏而包含微小的振动。这是因为自然界不断在运动。人类对于运动尤为敏感,这使得它成为最显著的视觉信号之一。拍摄没有运动(或甚至带有略微幻想的运动)的图像有时会感觉不安或超现实。然而,人们很容易理解或想象场景中的运动。教模型获得逼真的运动则更加复杂。场景的物理动力学,或者物体由于其特定的物理特性(如质量、弹性等)而受到的力量,产生了人们在外界看到的运动。

这些力量和特性很难以规模化的方式进行量化和捕捉,但幸运的是,它们通常不需要进行量化,因为可以通过观察到的运动进行捕捉和学习。尽管这种可观察的运动是多模态的,并且基于复杂的物理过程,但它经常是可预测的:蜡烛以特定的模式闪烁,树木摇摆并摆动它们的叶子。他们可以想象在拍摄照片时可能正在进行的合理运动,或者如果可能有许多这样的运动,可以通过查看静止图像所依赖的自然运动的分布来进行想象。这种可预测性已经融入了人们对真实场景的感知中。

图1:可以看出该方法如何模拟场景动力学之前的生成图像空间先验。从一张RGB图片开始,模型创建一个神经随机运动纹理,一种在傅里叶域中模拟密集长期运动轨迹的运动表示。他们演示了他们的运动先验如何用于将单张图片转换为流畅循环的电影或模仿对象动力学以响应交互用户刺激(例如拖放和释放对象的点)。他们使用视频的10秒钟的空间时间X-t切片(沿输入图片显示的扫描线)来可视化右侧的输出电影。

鉴于人类如何轻松地将这些潜在运动可视化,模拟这种类似的分布在数字领域是一个自然的研究课题。由于生成模型,特别是有条件扩散模型的最近进展,我们现在能够模拟非常丰富和复杂的分布,包括条件于文本的真实图片分布。由于这种能力,许多以前不切实际的应用程序,包括文本条件下的随机、多样和逼真的视觉材料的生成,已经成为可能。最近的研究表明,在这些图片模型的成功之后,建模额外的领域,如视频和3D几何,对于下游应用可能同样有益。

在本文中,来自Google Research的研究人员研究了在单张图像中每个像素的运动,也称为图像空间中的场景运动的生成先验建模。该模型使用自动从大量真实视频序列中提取的运动轨迹进行训练。经过训练的模型预测了一个基于输入图片的神经随机运动纹理,即描述每个像素未来轨迹的运动基础系数集合。他们选择傅里叶级数作为基础函数,以限制分析范围在具有振动动力学的真实场景中,例如在风中摇摆和移动的树木和花朵。他们使用扩散模型预测神经随机运动纹理,该模型一次生成单个频率的系数,但协调这些预测跨频带。

如图1所示,生成的频率空间纹理可以转换为密集的、长程的像素运动轨迹,使用基于图像的渲染扩散模型合成未来的帧,将静态图片转换为逼真的动画。与使用原始视频合成进行视觉动画的早期技术相比,他们的运动表示使得更连贯的长期生成和对动画的更细粒度控制成为可能。此外,他们展示了他们生成的运动表示如何轻松用于各种下游应用,包括制作无缝循环的视频,编辑诱导运动,以及模拟对象如何对用户施加的力做出反应的交互动态图像。