Google AI推出SANPO:用于室外人类自我中心场景理解的多属性视频数据集

Google AI推出SANPO:用于室外人类自我中心场景理解的多属性视频数据集

“`html

对于自动驾驶等任务,AI 模型必须不仅理解道路和人行道的 3D 结构,还要识别和辨识街道标志和红绿灯。这项任务在车上安装了一个特殊的激光器通过捕捉 3D 数据来实现。这个过程被称为以自身为中心的场景理解,即从自己的角度来理解环境。问题在于除了自动驾驶领域之外,目前没有公开可用的数据集能够通用于以自身为中心的人类场景理解。

Google 的研究人员推出了SANPO(场景理解、可访问性、导航、路径规划、避障)数据集,这是一个用于人类以自身为中心场景理解的多属性视频数据集。SANPO 包括真实世界数据和合成数据,分别被称为 SANPO-Real 和 SANPO-Synthetic。SANPO-Real 涵盖了多样的环境,并且有来自两个立体摄像机的视频以支持多视图方法。这个真实数据集还包括以 15 帧每秒(FPS)捕获的 11.4 小时的视频,并带有密集的注释。

SANPO 是一个用于人类以自身为中心场景理解的大规模视频数据集,包含超过 60 万个真实世界和超过 10 万个合成帧,具有密集的预测注释。

Google 的研究人员高度重视隐私保护。他们在收集数据时遵循本地、城市和州一级的法律,并确保在发送数据进行注释之前删除了任何个人信息,如面部和车辆车牌。

为了克服捕捉视频时的不完美,例如运动模糊、人为评级错误等,引入了 SANPO-Synthetic 来增补真实数据集。研究人员与Parallel Domain合作,创建了一个优化以与真实环境相匹配的高质量合成数据集。SANPO-Synthetic 包含 1961 个会话,使用虚拟化的 Zed 摄像机进行记录,头部安装和胸部安装的位置平均分配。

合成数据集和部分真实数据集使用全景实例蒙版进行了注释,为每个像素分配了一个类别和一个 ID。在 SANPO-Real 中,只有很少的帧的每帧超过 20 个实例。相反,SANPO-Synthetic 比真实数据集中的帧包含更多实例。

在这个领域中,其他一些重要的视频数据集包括SCANDMuSoHuEgo4DVIPSegWaymo Open。与这些数据集相比,SANPO 是第一个具有全景蒙版、深度、相机位姿、多视图立体和真实与合成数据的数据集。除了 SANPO,只有 Waymo Open 有全景分割和深度图。

研究人员使用 SANPO 数据集训练了两个最先进的模型——BinsFormer(用于深度估计)和kMaX-DeepLab(用于全景分割)。他们观察到该数据集对于密集预测任务来说是相当具有挑战性的。此外,合成数据集比真实数据集具有更好的准确性。这主要是因为真实世界的环境相比合成数据相当复杂。此外,在合成数据的情况下,分割注释员的精度更高。

SANPO 的推出解决了人类以自身为中心场景理解数据集的缺乏问题,它是一个集合了真实世界和合成数据集的重要进展。它的密集注释、多属性特征以及全景分割和深度信息的独特组合使其与该领域中的其他数据集区别开来。此外,研究人员对隐私的承诺使该数据集能够支持同行研究人员创建面向视觉障碍者的视觉导航系统,并推动先进视觉场景理解的发展边界。

“`