认识TRACE:一种新的人工智能方法,使用全局坐标跟踪实现准确的三维人体姿态和形状估计

许多领域可以从最近估计的三维人体姿态和形状(HPS)的进展中受益并使用。然而,大多数方法只考虑一帧图像,估计相对于相机的人体位置。此外,这些技术不会跟随个体并不能检索其全球旅行路径。在大多数手持视频中,这个问题更加严重,因为它们是用抖动的摄像机拍摄的。

为了解决这些问题,哈尔滨工业大学、京东探索学院、马克斯·普朗克智能系统研究所和HiDream.ai的研究人员使用5D表示(空间、时间和身份)实现了有关情境中个人的新型端到端推理。所提出的TRACE技术具有各种创新的架构特征。最值得注意的是,它采用了两个新的“地图”,从相机和世界的角度来推理人们的3D运动。借助第二个记忆模块,即使在长时间的缺席后,也可以跟踪个人的动态。TRACE通过单步操作从移动相机中恢复全局坐标的3D人体模型,并同时跟踪它们的运动。

他们的目标是同时重建每个人的全局坐标、3D位置、形状、身份和运动。为了做到这一点,TRACE首先提取时间信息,然后使用专用的大脑网络解码每个子任务。首先,TRACE使用两个平行轴将视频和运动编码为单独的特征映射,一个用于时间图像(F’i),一个用于运动(Oi)。使用这些特征,检测和跟踪子树执行多主体跟踪,以在相机坐标中重建3D人体运动。

估计的3D运动偏移图显示了每个主体在两个帧之间在空间中的相对运动。一种创新的记忆单元提取主体身份,并使用估计的3D检测和3D运动偏移在相机坐标中构建人类轨迹。小说的World分支然后计算一个世界运动图,以估计主体在全局坐标中的轨迹。

即使具有强大的5D表示,没有真实世界的数据用于训练和评估全局人类轨迹估计。然而,为动态相机电影的全球人类轨迹和相机姿态编制DC视频的全球人类轨迹和相机姿态是具有挑战性的。因此,该团队模拟相机动作,将由静止相机采集的野生电影转化为DC视频,并生成一个名为DynaCam的新数据集。

该团队使用DynaCam数据集和两个野外多人基准测试来测试TRACE。在3DPW方面,TRACE提供了SOTA的结果。在MuPoTS-3D方面,TRACE在长期遮挡下跟踪人类方面的表现优于之前基于3D表示的方法和基于检测的跟踪方法。研究结果表明,在计算来自DC视频的人类整体3D轨迹方面,TRACE优于GLAMR。

该团队建议使用诸如BEDLAM之类的训练数据来研究显式相机运动估计,该训练数据包括复杂的人体运动、3D场景和相机运动。