牛津大学的研究人员介绍了DynPoint:一种人工智能算法,旨在促进无限制单目视频的快速合成新视角

牛津大学的研究人员介绍DynPoint:人工智能算法促进无限制单目视频快速合成新视角

计算机视觉界一直在积极关注新型视角合成(VS)技术,因为它有潜力推进人工现实并增强机器对特定场景的视觉和几何方面的理解能力。利用神经渲染算法的最新技术已经实现了对静态场景的照片般真实的重建。然而,当前的方法主要基于对极几何关系,更适用于静态情况,而现实世界的动态元素对这些方法提出了挑战。

最近的研究主要集中在使用一个或多个多层感知器(MLP)来编码时空场景信息,以合成动态环境中的视角。一种方法是创建一个包含目标视频的完整潜在表示,直到帧级。然而,MLPs或其他表示方法的有限内存容量限制了这种方法在较短视频中的适用性,尽管它能够产生视觉上准确的结果。

为了解决这个限制,英国牛津大学的研究人员推出了DynPoint。这种独特的方法不依赖于学习潜在的规范表示,以便从较长的单目视频中高效地生成视角。DynPoint利用表面点的一致深度和场景流的显式估计,不同于传统方法隐式编码信息。利用这些估计,将多个参考帧的信息合并到目标帧中。随后,从收集的数据中构建出一个分层神经点云,并使用这个分层点云合成目标帧的视角。

此聚合过程通过学习目标和参考帧之间的对应关系来支持,同时辅助深度和场景流的推断。为了能够在单目视频中快速合成目标帧,研究人员提供了一种从参考帧到目标帧收集信息的表示。对DynPoint在Nerfie、Nvidia、HyperNeRF、iPhone和Davis等数据集上的视角合成速度和准确性进行了广泛评估。实验结果显示,所提出的模型在准确性和速度方面都表现出卓越的性能。