这篇人工智能论文研究了匿名化对无人驾驶数据集训练计算机视觉模型的影响
图像去匿名化是指从图像中修改或删除敏感信息以保护隐私。虽然这对于遵守隐私法规非常重要,但匿名化通常会降低数据质量,从而影响计算机视觉的发展。存在多个挑战,例如数据退化、平衡隐私和效用、创建高效算法以及解决道德和法律问题。必须达成适当的妥协,以在保护隐私的同时改善计算机视觉研究和应用。
以往的图像去匿名化方法包括传统方法,如模糊、遮罩、加密和聚类。最近的工作集中在使用生成模型进行逼真的匿名化,以替换身份。然而,许多方法缺乏匿名性的正式保证,并且图像中的其他线索仍然可以揭示身份。有限的研究探讨了对计算机视觉模型的影响,其效果因任务而异。公共匿名化数据集很少。
在最近的研究中,来自挪威科技大学的研究人员将注意力集中在自动驾驶汽车背景下的关键计算机视觉任务上,具体来说是实例分割和人体姿态估计。他们评估了DeepPrivacy2实现的全身和面部匿名化模型的性能,旨在比较逼真的匿名化方法与传统方法的有效性。
文章提出的评估匿名化影响的步骤如下:
- 匿名化常见的计算机视觉数据集。
- 使用匿名化数据训练各种模型。
- 在原始验证数据集上评估模型
作者提出了三种全身和面部匿名化技术:模糊、遮罩和逼真的匿名化。他们根据实例分割注释定义匿名化区域。传统方法包括遮罩和高斯模糊,而逼真的匿名化则使用DeepPrivacy2的预训练模型。作者还通过直方图均衡化和潜在优化解决了全身综合中的全局上下文问题。
作者进行了实验,评估了使用三个数据集(COCO姿态估计、Cityscapes实例分割和BDD100K实例分割)上的匿名化数据训练的模型。面部匿名化技术在Cityscapes和BDD100K数据集上没有显着的性能差异。然而,对于COCO姿态估计,模糊和遮罩技术都导致性能显着下降,因为模糊/遮罩伪影与人体之间存在相关性。对于全身匿名化,无论是传统方法还是逼真的方法,都导致性能下降,与原始数据集相比。逼真的匿名化效果更好,但仍会因关键点检测错误、合成限制和全局上下文不匹配而降低结果。作者还探讨了模型大小的影响,并发现较大的模型在COCO数据集上进行面部匿名化时性能较差。对于全身匿名化,标准和多模式截断方法都提高了性能。
总之,该研究调查了使用自动驾驶汽车数据集训练计算机视觉模型时匿名化的影响。面部匿名化对实例分割几乎没有影响,而全身匿名化显着影响了性能。逼真的匿名化优于传统方法,但并不完全替代真实数据。强调了在不影响模型性能的情况下保护隐私。该研究在注释依赖性和模型体系结构方面存在限制,需要进一步研究以改进匿名化技术并解决合成限制。还强调了在自动驾驶汽车中综合人物的合成匿名化方面的挑战。
查看论文。别忘了加入我们的25k+ ML SubReddit、Discord频道和电子邮件通讯,在那里我们分享最新的AI研究新闻、酷炫的AI项目等。如果您对上述文章有任何疑问,或者我们漏掉了什么,请随时发送电子邮件至[email protected]