来自中国的新人工智能研究提出了4K4D:一种支持硬件光栅化并实现了前所未有的渲染速度的4D点云表示
「中国新智能学者提出4K4D:硬件光栅化支持、无与伦比速度的4D点云渲染方法」
动态视图合成是从捕捉的视频中重建动态3D场景并创建沉浸式虚拟播放的过程。这个过程一直以来都是计算机视觉和图形学中的一个长期研究问题,并对VR/AR领域、体育广播和艺术表演捕捉领域具有重要潜力。
传统的动态3D场景表示方法使用纹理网格序列,但这些方法复杂且计算成本高,不适用于实时应用。
近年来,一些方法在动态视图合成方面取得了很好的结果,渲染质量令人印象深刻。然而,它们仍然需要改进的一个方面是渲染高质量图像时的延迟问题。这篇研究论文介绍了4K4D,一种支持硬件光栅化并允许快速渲染的4D点云表示。
4K4D基于一种包含4个特征的4D特征网格来表示3D场景。这种表示使得网格中的点规则且更易优化。该模型首先使用空间雕刻算法和神经网络来表示输入视频中的对象几何和形状,并学习如何从点云中表示3D场景。然后开发了一种差分深度剥离算法来渲染点云表示,并利用硬件光栅器提高渲染速度。
为了提升渲染速度,采用了以下加速技术:
- 某些模型参数预先计算并存储在内存中,以加快图形卡渲染场景的速度。
- 模型的精度从32位浮点减少到16位浮点。这可以增加20帧每秒的FPS而不会损失可见性。
- 最后,减少了深度剥离算法所需的渲染通道数量,这也可以增加20帧每秒的FPS而不会对质量造成可见影响。
研究人员对4K4D在多个数据集上进行了性能评估,如DNA-Rendering、ENeRF-Outdoor等。研究人员的渲染3D场景的方法在前一个数据集上能够以1080p的分辨率以超过400帧每秒的速度渲染,并在后一个数据集上以4K分辨率以80帧每秒的速度渲染。这比最先进的实时动态视图合成方法ENeRF快30倍,而且具有更好的渲染质量。ENeRF Outdoor数据集是一个相当具有挑战性的数据集,其中涉及多个演员。与其他模型相比,4K4D仍能产生更好的结果,其他模型的渲染结果模糊,并在某些渲染中展示出图像边缘周围的黑色伪影。
总之,4K4D是一种新方法,旨在解决实时视图合成动态4K分辨率的动态3D场景时渲染速度慢的问题。它是一种基于神经点云的表示方法,可以实现最先进的渲染质量,并且渲染速度增加了30倍以上。然而,也存在一些限制,例如对于长视频的高存储要求和在帧之间建立点对应关系,这些限制研究人员计划在未来的工作中解决。