苹果研究人员引入了一种突破性的人工智能方法,可以从动态姿态的RGB图像中进行稠密三维重建

苹果研究人员引入革命性的人工智能方法:动态姿态下的RGB图像实现稠密三维重建

“`

通过学习的先验,仅使用单目相机的RGB重建在解决低纹理区域和基于图像重建的固有模糊性问题方面取得了显著进展。实时执行的实际解决方案引起了相当大的关注,因为它们对移动设备上的交互应用至关重要。然而,当前最先进的重建系统中尚未考虑的一个关键前提是,成功的方法必须同时在线和实时。

为了进行在线操作,算法必须在每个时间间隔内仅依赖历史和当前观察来生成精确的增量重建。这个问题破坏了以前工作的一个重要前提:每个视图都有一个确切的、完全优化的姿势估计。相反,在现实世界的扫描条件下,同时定位和映射(SLAM)系统中发生姿态漂移,导致一系列动态姿态估计。由于姿态图优化和回环闭合,以前的姿态会更新。这种来自SLAM的姿态更新在在线扫描中很常见。

如图1所示,重建必须通过遵守这些变化与SLAM系统保持一致。然而,最近在密集的仅使用RGB进行重建的努力中,还没有解决在线应用中相机姿势估计的动态特征。尽管重建质量取得了显著的进展,但这些努力还没有明确解决动态姿态,并且仍然保持了静态姿态输入图片的传统问题形式。另一方面,它们承认这些更新的存在,并提供一种将姿态更新管理集成到当前仅使用RGB的技术中的方法。

图1: 来自SLAM系统(a, b)的姿态数据在实时3D重建中可能会被更新(c, 红绿)。我们的姿态更新管理技术生成了全局一致和准确的重建,而忽略这些变化会导致几何错误。

它们受到BundleFusion的影响,这是一种使用线性更新算法将新视图集成到场景中的RGB-D技术。这允许旧视图的去集成以及在位置更新时重新集成。本研究建议使用去集成作为通用框架,通过RGB图像在现场重建中管理姿态变化。研究了三种带有静态姿态假设的样本RGB重建技术,以克服在线场景的每种方法的约束。

具体而言,苹果公司和加州大学圣巴巴拉分校的研究人员提供了一种独特的基于深度学习的非线性去集成技术,以促进像NeuralRecon这样依赖于学习的非线性更新规则的在线重建。他们提供了一个名为LivePose的新颖而独特的数据集,该数据集包含使用BundleFusion构建的ScanNet的完整动态姿态序列,以验证这项技术并促进未来的研究。去集成策略的有效性在测试中得以展示,显示了三种最先进系统在重要重建度量方面的定性和定量改进。

他们的主要贡献是:• 他们提供并定义了一个更接近模拟移动交互应用的实际环境的新颖视觉任务:从动态姿态RGB图像进行在线稠密3D重建。• 他们发布了LivePose,第一个向公众提供的动态SLAM姿态估计数据集。它包括ScanNet数据集中的1,613个扫描的整个SLAM姿态流。• 为了方便具有动态姿态的重建,他们创建了创新的训练和评估方法。• 他们提出了一种独特的循环去集成模块,可以消除过时场景材料,以实现具有学习的、循环视图集成的动态位置处理。该模块教授如何处理姿态变化。

“`