“认识ResFields:一种新颖的人工智能方法,克服了时空神经场在有效建模长期和复杂时间信号方面的局限性”
Introducing ResFields, a novel AI method that overcomes the limitations of spatiotemporal neural fields in effectively modeling long-term and complex time signals.
用于表示神经连续时空场的最流行的神经网络架构,也称为神经场,是多层感知器。这是因为它可以对任意维度上的连续信号进行编码,具有内置的隐式正则化,并具有有助于有效插值的频谱偏差。由于这些出色的功能,多层感知器在图像合成、动画、纹理创建和创新视图合成等各种应用中取得了巨大成功。然而,由于多层感知器的频谱偏差,即神经网络学习低频函数的倾向,收集细粒度特征和有效复制复杂的真实世界信号都很困难。
以前的尝试中使用了位置编码或独特的激活函数来克服频谱偏差。然而,即使使用这些技术,捕捉细粒度特征仍然很困难,尤其是在处理像长片或动态3D场景等大时空数据时。通过增加神经网络的总神经元数量来增加多层感知器的容量是一种简单的技术。然而,由于时间和内存复杂性随参数总数增长,这种技术会导致推理和优化变慢,GPU RAM 的成本更高。
他们在这项研究中要解决的问题是如何在不影响多层感知器神经场的架构、输入编码或激活函数的前提下增加模型的容量。同时,他们希望保留神经网络的隐式正则化特性,并增加已经用于减少频谱偏差的方法。基本概念是用时间相关的层替换一个或多个多层感知器层,其权重表示为添加到现有层权重 Wi 上的可训练残差参数 Wi(t)。来自苏黎世联邦理工学院、微软和苏黎世大学的研究人员将以这种方式创建的神经场称为 ResFields。
元学习 MLP 权重并维护专门的独立参数是另一种选择,但这需要耗费很长时间的训练,不适用于实现逼真的重建。将时空场划分并拟合不同/局部的神经区域是提高建模能力的最常用方法。然而,由于局部梯度对网格结构的改变,这些技术会妨碍全局推理和泛化,而网格结构对于从稀疏视图重建辐射场是至关重要的。增加模型容量的这种方法有三个主要优点。
首先,推理和训练速度保持不变,因为底层 MLP 不会变宽。这个特点对于大多数实际的下游神经场应用非常重要,比如 NeRF,它通过重复查询神经场来解决逆体素渲染问题。其次,与强调空间划分的其他方法不同,这种建模方法保持了 MLP 的隐式正则化和泛化能力。最后,ResFields 是可适应的、易于扩展的,并且可以与大多数基于 MLP 的时空数据算法一起使用。然而,由于可训练参数过多没有限制,ResFields 的简单实现可能会导致插值质量下降。
他们建议将残差参数实现为全局低秩跨度集和一组时间相关系数,这受到了研究充分的低秩分解层的启发。这种建模改进了泛化质量,并显著减少了存储额外网络参数带来的内存占用。
他们的主要贡献如下:
• 他们引入了 ResFields,这是一种独立于架构的用于建模时空场的构建组件。
• 他们系统地展示了他们的方法如何增强其他几种现有方法。
• 他们展示了四个困难任务的前沿结果:从稀疏校准的 RGB 和 RGBD 摄像机中恢复动态场景的神经辐射场重建、使用有符号距离函数进行时空 3D 形状建模以及 2D 视频近似。您可以从 GitHub 上获取代码、模型和收集的数据。