斯坦福大学的研究介绍了PointOdyssey:一个用于长期点跟踪的大规模合成数据集
斯坦福大学的研究介绍了PointOdyssey:一个用于长期点跟踪的大规模合成数据集 The condensed result is 'Stanford University research introduces PointOdyssey a large-scale synthetic dataset for long-term point tracking.
大规模注释的数据集已经成为各种计算机视觉任务中创建精确模型的高速公路。他们希望在这项研究中提供这样一条高速公路,以实现细粒度的长距离跟踪。细粒度的长距离跟踪旨在在任何电影帧的任何像素位置上,尽可能长时间地跟踪匹配的世界表面点。已经有几代数据集旨在进行细粒度的短距离跟踪(例如光流),以及定期更新的数据集旨在进行各种类型的粗粒度长距离跟踪(例如单目标跟踪、多目标跟踪、视频对象分割)。然而,在这两种类型监控之间的接口只有很少的作品。
研究人员已经在具有稀疏的人工提供注释(BADJA和TAPVid)的真实世界电影上测试了细粒度的跟踪器,并在不真实的合成数据(FlyingThings++和Kubric-MOVi-E)上对其进行了训练,其中包括在随机背景上以意想不到的方向移动的随机对象。虽然这些模型能够推广到实际视频是有趣的,但使用这种基本的训练方式阻止了长期时间上下文和场景级语义意识的发展。他们认为,长距离的点跟踪不应该被视为光流的延伸,其中自然性可以被放弃而不会遭受负面后果。
虽然视频的像素可能会以某种随机方式移动,但它们的路径反映了几个可建模的元素,例如相机抖动、对象级移动和变形,以及社交和物理互动等多对象连接。进展取决于人们认识到这个问题在数据和方法论上的重要性。斯坦福大学的研究人员提出了PointOdyssey,一个用于长期细粒度跟踪训练和评估的大型合成数据集。他们的数据集中包含了真实世界视频的复杂性、多样性和逼真性,只能通过模拟才能实现像素级的准确注释。
他们使用从真实世界视频和动作捕捉中挖掘出的运动、场景布局和相机轨迹(而不是随机或手工设计的),使他们的工作与之前的合成数据集有所区别。他们还对各种场景属性进行域随机化,例如环境贴图、照明、人物和动物身体、相机轨迹和材质。由于高质量内容和渲染技术的可获得性的进步,他们还能提供比以前更多的照片逼真性。他们数据中的运动轨迹来自于大规模的人体和动物动作捕捉数据集。他们使用这些捕捉数据为户外环境中的人型和其他动物生成逼真的长期轨迹。
在户外环境中,他们将这些演员与随机分布在地面平面上的3D对象配对。这些物体会根据物理规律做出反应,例如当脚与它们接触时被踢开。然后,他们使用室内环境的动作捕捉来创建逼真的室内场景,并在他们的模拟器中手动重新创建捕捉环境。这使他们能够重新创建精确的运动和互动,同时保持原始数据的场景感知特性。为了提供复杂的多视角数据,他们导入从真实镜头中得出的相机轨迹,并连接额外的相机到合成角色的头部。与Kubric和FlyingThings的大部分随机运动模式相比,他们采取了基于捕捉的方法。
他们的数据将促进跟踪技术的发展,超越仅仅依赖底层线索(如特征匹配)并利用场景级线索提供强大的先验信息。他们的数据具有丰富的多样性,包括42个人型形式、7种动物、1K+个对象/背景纹理、1K+个物体、20个原始3D场景和50个环境贴图。为了创建各种明暗场景,他们随机化场景的照明。此外,他们还在场景中添加动态雾和烟效果,增加了FlyingThings和Kubric完全缺乏的一种部分遮挡类型。PointOdyssey开放的一个新问题是如何利用长期时间上下文。
例如,最先进的跟踪算法Persistent Independent Particles (PIPs)具有8帧的时间窗口。他们建议对PIPs进行一些改进,作为使用任意长时间上下文的第一步,包括显著扩展其8帧的时间范围和添加模板更新机制。根据实验结果,他们的解决方案在PointOdyssey测试集和真实世界基准测试中的跟踪准确性方面都超过了其他所有解决方案。总而言之,PointOdyssey是这项研究的主要贡献,它是一个大规模的合成数据集,用于长期点跟踪,试图反映现实世界细粒度监测的困难和机会。