“革命性的实时1080p新视角合成:基于3D高斯和可见性感知渲染的突破”
Revolutionary real-time 1080p new perspective synthesis breakthrough based on 3D Gaussian and visibility-aware rendering
网格和点是最常见的三维场景表示,因为它们是明确的,非常适合于快速的GPU/CUDA光栅化。相比之下,最近的神经辐射场(NeRF)方法建立在连续场景表示之上,通常通过优化多层感知机(MLP)使用体素光线行军来合成捕获场景的新视图。同样,最高效的辐射场解决方案通过插值存储在体素、哈希网格或点中的值来建立连续表示。尽管这些方法的常数性质有助于优化,但渲染所需的随机采样是昂贵的,并且可能导致噪音。
来自尼斯大学(Université Côte d’Azur)和马克斯·普朗克计算机科学研究所(Max-Planck-Institut für Informatik)的研究人员提出了一种结合了两者优点的新方法:他们的三维高斯表示允许使用最先进的视觉质量和具有竞争力的训练时间进行优化。同时,他们的基于瓦片的喷洒解决方案确保了在几个先前发布的数据集上以SOTA质量进行1080p分辨率的实时渲染(见图1)。他们的目标是允许对使用多张照片捕获的场景进行实时渲染,并且以与典型真实场景的最高效方法相同的速度创建表示。最近的方法虽然能够快速训练,但很难达到当前SOTA NeRF方法(即Mip-NeRF360)所获得的视觉质量,即需要长达48小时的训练时间。
快速但质量较低的辐射场方法可以根据场景实现交互式渲染时间(每秒10-15帧),但无法满足高分辨率实时渲染的要求。他们的解决方案建立在三个主要组成部分上。首先,他们引入了三维高斯作为灵活而表现力强的场景表示。他们从与先前NeRF类似方法相同的输入开始,即使用结构从运动(SfM)校准的相机,并使用作为SfM过程的一部分免费生成的稀疏点云初始化三维高斯的集合。与大多数基于点的解决方案不同,它们仅使用SfM点作为输入即可获得高质量的结果。请注意,对于NeRF合成数据集,他们的方法即使在随机初始化的情况下也能够获得高质量。
他们表明,三维高斯是一个很好的选择,因为它们是可微的体积表示。但是,它们可以通过将其投影到二维并应用标准的𝛼混合来非常高效地光栅化,使用与NeRF相同的等效图像形成模型。他们方法的第二个组成部分是对三维高斯的属性进行优化,包括三维位置、不透明度𝛼、各向异性协方差和球谐(SH)系数,并与自适应密度控制步骤交错进行,其中在优化过程中添加和偶尔删除三维高斯。优化过程产生了一个相当紧凑、非结构化和精确的场景表示(在所有测试场景中,使用1-5百万个高斯函数)。他们方法的第三个和最后一个元素是他们的实时渲染解决方案,该解决方案使用受最近工作启发的快速GPU排序算法,采用基于瓦片的光栅化。
然而,由于它们的3D高斯表示,它们可以执行各向异性的喷涂,以尊重可见性排序-通过排序和𝛼混合-并通过跟踪所需的多重排序喷涂的遍历来实现快速而准确的向后传递。总结起来,它们提供以下贡献:
• 引入各向异性3D高斯作为辐射场的高质量的非结构化表示。
• 通过与自适应密度控制交替的优化方法,为捕获场景创建高质量的表示。
• 针对GPU的快速可微渲染方法,具有可见性感知,允许各向异性喷涂和快速反向传播,以实现高质量的新视图合成。
他们在先前发布的数据集上的结果表明,他们可以从多视角捕获优化他们的3D高斯,并实现与先前的隐式辐射场方法中最佳质量相等或更好的质量。他们还可以实现与最快方法相似的训练速度和质量,并且重要的是,为新视图合成提供了首个高质量的实时渲染。