“认识MC-JEPA:一种联合嵌入预测架构,用于自监督学习运动和内容特征”

Understanding MC-JEPA a joint embedding prediction architecture for self-supervised learning of motion and content features.

最近,专注于学习内容特征的技术,特别是那些包含让我们能够识别和区分对象的信息的特征,在视觉上的自我监督学习中占据主导地位。大多数技术都集中在识别在诸如物品分类或电影中的活动检测等任务中表现良好的广泛特征上。学习在分割和检测等区域任务中表现出色的局部特征是一个相对较新的概念。然而,这些技术集中于理解图片和视频的内容,而不是能够学习关于像素的特征,如电影中的运动或纹理。

在这项研究中,来自Meta AI、PSL Research University和New York University的作者们专注于利用自我监督的光流估计从电影中学习内容特征和运动特征。当两幅图片,例如电影中的连续帧或立体图像,移动或具有密集的像素连接时,光流会捕捉到这种运动。在计算机视觉中,光流估计是一个基本问题,其解决方案对于诸如视觉里程计、深度估计或物体跟踪等操作至关重要。根据传统方法,光流估计是一个优化问题,旨在满足像素之间的平滑性要求。

对真实世界数据进行分类而不是合成数据,限制了基于神经网络和监督学习的方法。自我监督技术现在通过允许从大量真实世界的视频数据中学习,与监督技术竞争。然而,当前大多数方法只关注运动,而不是视频的(语义)内容。这个问题通过同时学习图片中的运动和内容要素来解决,采用了多任务的方法。最近的方法识别视频帧之间的空间关系。其目标是跟踪对象的运动,以收集光流估计无法提供的内容数据。

这些方法是基于对象级别运动估计的方法。它们对其他视觉下游任务的泛化能力相对较弱,为跟踪任务获取了高度专业化的特征。由于它们经常在需要比较大的图片数据集(如ImageNet)更多样性的小视频数据集上进行训练,所以所学到的视觉特征的质量较低。同时学习多个活动是开发视觉表示的更可靠的技术。为了解决这个问题,他们提出了基于联合嵌入预测架构的MC-JEPA(Motion-Content Joint-Embedding Predictive Architecture)。使用共同的编码器,这个基于联合嵌入预测架构的系统在多任务环境中学习光流估计和内容特征。

以下是他们的贡献总结:

• 他们提供了一种基于PWC-Net的技术,通过添加多种额外的元素(如反向一致性损失和方差-协方差正则化项)来学习自我监督的光流,使用合成和真实视频数据。

• 他们使用在ImageNet上训练的自我监督学习技术VICReg的M-JEPA,采用多任务配置来优化他们估计的光流,并提供适用于多个下游任务的内容特征。他们最终方法的名称是MC-JEPA。

• 他们在多个光流基准测试中对MC-JEPA进行了测试,包括KITTI 2015和Sintel,以及Cityscapes或DAVIS上的图像和视频分割任务,并发现单个编码器在每个任务上都表现良好。他们预计MC-JEPA将成为基于联合嵌入和多任务学习的自我监督学习方法的先驱,可以在包括图像和视频在内的任何视觉数据上进行训练,并在从运动预测到内容理解等各种任务中表现出色。