这篇人工智能论文提出了一种新的预训练策略,称为隐私保护MAE-Align,以有效地结合合成数据和去人真实数据

隐私保护MAE-Align:一种有效结合合成数据和去人真实数据的新预训练策略——这篇人工智能论文让你了解

动作识别是从视频序列中识别和分类人类动作的关键领域,它是计算机视觉中的一个重要任务。然而,它对包含人类图像的大规模数据集的依赖带来了与隐私、伦理和数据保护相关的重大挑战。这些问题源于基于个人属性进行个体识别以及未经明确同意的数据收集。此外,与性别、种族或特定群体执行的特定动作相关的偏差可能影响基于这些数据集训练的模型的准确性和公平性。

在动作识别中,大规模视频数据集上预训练方法的进展非常重要。然而,这些进展也带来了一些挑战,比如伦理考虑、隐私问题以及包含人类图像的数据集中固有的偏差。目前解决这些问题的方法包括对脸部模糊处理、视频降采样或使用合成数据进行训练。尽管有这些努力,但还需要更多对保护隐私的预训练模型如何将其学到的表示应用于下游任务的分析。现有的最先进模型有时由于偏差或在训练数据中缺乏多样化的表示而无法准确预测动作。这些挑战需要提出新的方法来解决隐私问题,并增强学习到的表示在各种动作识别任务中的可传输性。

为了克服用于动作识别的以人为中心的数据集中隐私问题和偏差带来的挑战,最近在著名会议NeurIPS 2023上提出了一种创新的方法。这篇最新发表的研究工作通过结合包含虚拟人和去除人类的真实世界视频的合成视频来预训练动作识别模型,并提出了一种名为隐私保护MAE-Align(PPMA)的创新预训练策略。通过于合成数据中学习时间动态和于不包含人类的真实视频中学习环境特征,这种创新的方法有助于解决与人类数据相关的隐私和伦理问题,显著提高了学到的表示在多样化的下游动作识别任务中的传输能力,并缩小了使用包含人类数据和不包含人类数据训练的模型之间的性能差距。

具体来说,所提出的PPMA方法包括以下关键步骤:

  1. 隐私保护真实数据:该过程始于Kinetics数据集,使用HAT框架去除人类后得到无人Kinetics数据集。
  2. 合成数据添加:包含来自SynAPT的合成视频,提供虚拟人类动作以便于聚焦于时序特征。
  3. 下游评估:使用六个多样化的任务评估模型在各种动作识别挑战中的传输能力。
  4. MAE-Align预训练:这个两阶段的策略包括:
  • 第一阶段:MAE训练,用于预测像素值,学习真实世界的环境特征。
  • 第二阶段:有监督对齐,使用无人Kinetics数据和合成数据进行基于动作标签的训练。
  1. 隐私保护MAE-Align(PPMA):将第一阶段(在无人Kinetics数据上训练的MAE)与第二阶段(使用无人Kinetics数据和合成数据的对齐)相结合,PPMA实现了强大的表示学习,并同时保护隐私。

研究团队进行了实验来评估所提出的方法。使用从头开始训练的ViT-B模型,没有进行ImageNet预训练,他们采用了两阶段的过程:MAE训练200个epoch,然后进行有监督对齐50个epoch。在六个多样化的任务中,PPMA在微调(FT)和线性探测(LP)中的性能优于其他隐私保护方法2.5%和5%。虽然在高场景对象偏差任务上稍微不太有效,但PPMA显著缩小了使用真实人类中心数据训练的模型与模型之间的性能差距,证明在保护隐私的同时实现强大的表示。消融实验凸显了MAE预训练在学习可传输特征方面的有效性,尤其在对下游任务进行微调时效果明显。此外,探索上下文和时序特征的组合,像平均模型权重和动态学习混合比例等方法显示出改善表示的潜力,为进一步探索打开了新的可能。

本文介绍了PPMA,一种新颖的用于动作识别模型的隐私保护方法,解决了以人为中心的数据集中的隐私、伦理和偏差问题。通过利用合成数据和去除人类的真实世界数据,PPMA有效地将学到的表示传输到多样化的动作识别任务中,最小化了使用包含和不包含人类数据训练的模型之间的性能差距。实验结果突出了PPMA在推进动作识别方面的效果,同时确保隐私并减轻传统数据集中与伦理有关的担忧和偏差。