分而治之,团结一致:CoTracker是一种联合跟踪视频中多个点的人工智能方法
CoTracker是联合跟踪视频中多个点的人工智能方法
近年来,在人工智能领域的图像生成和大型语言模型方面取得了许多进展。由于其革命性能力,它们已经成为关注的焦点已经一段时间了。图像生成和语言模型都变得非常出色,以至于很难区分生成的输出和真实的输出。
但不仅仅是它们在最近几年取得了快速发展,我们还看到了计算机视觉应用方面的令人印象深刻的进展。例如,分割任何物体(SAM)模型在物体分割方面开辟了新的可能性。SAM可以在图像或更令人印象深刻的是视频中分割任何对象,而无需依赖训练字典。
视频部分特别令人兴奋,因为视频一直被认为是具有挑战性的数据。在处理视频时,运动跟踪在您试图实现的任何任务中起着至关重要的作用。这是问题的基础。
运动跟踪的一个关键方面是建立点对应关系。最近,已经有多种尝试在具有动态对象和移动摄像机的视频中进行运动估计。这项具有挑战性的任务涉及估计视频帧中2D点的位置,代表底层3D场景点的投影。
运动估计的两种主要方法是光流和跟踪。光流估计视频帧内所有点的速度,而跟踪则专注于估计点在一段时间内的运动,将点视为统计独立。
尽管现代深度学习技术在点跟踪方面取得了进展,但仍然存在一个被忽视的关键方面-跟踪点之间的关联性。直观地说,属于同一个物体的点应该是相关的,然而传统方法将它们视为独立的,导致了错误的近似。是时候见识一下CoTracker,它解决了这个问题。
CoTracker是一种基于神经网络的追踪器,旨在通过考虑跟踪点之间的相关性来革新长视频序列中的点跟踪。该网络将视频和可变数量的起始跟踪位置作为输入,并输出指定点的完整跟踪。
CoTracker支持多点联合跟踪,并在窗口应用程序中处理更长的视频。它在一个2D网格上运行,其中一个维度表示时间,另一个维度表示跟踪点。通过使用适当的自注意操作符,基于Transformer的网络可以在窗口内将每个跟踪视为一个整体,并在跟踪之间交换信息,利用它们的内在相关性。
CoTracker的灵活性允许在视频中的任何空间位置和时间跟踪任意点。它采用初始的近似轨迹版本,并逐步细化它们以更好地匹配视频内容。轨迹可以从任何点初始化,甚至可以从视频的中间或跟踪器本身的输出开始,以滑动窗口的方式操作。
CoTracker代表了运动估计方面的一个有前景的进展,强调了考虑点之间的相关性的重要性。它为增强视频分析铺平了道路,并为计算机视觉的下游任务开辟了新的可能性。