人物再识别简介
人物再识别简介 (Introduction to Person Re-identification)

人员再识别是一种识别在不同非重叠摄像头视图中出现的个体的过程。这个过程不依赖于面部识别,而是考虑服装细节、体型特征和其他与外貌相关的属性。
在本文中,我将介绍与开发人员ReID系统相关的概念、术语、挑战、数据集和方法。
给定一个人的图像,ReID的目标是确定该人是否被系统中的任何摄像头在先前捕捉到。这个图像被称为查询图像。有时,查询也可以是一个视频序列的形式。
是什么使人员再识别具有挑战性?
- 遮挡
- 不同视角
- 低图像分辨率
- 杂乱的背景
- 光照变化
- 不准确的行人检测
- 每个类别的训练样本较少
人员再识别是一个包含众多类别(每个人实际上是一个类别),但在训练过程中每个类别只有少数样本的任务。因此,从少数样本中学习单个类别的表示可能非常困难。从每个类别的少数示例中学习有意义的表示被称为少样本学习。
解决这个问题的一些方法包括使用数据增强增加每个类别的样本数,无监督表示学习(CLIP)等。在这里阅读更多关于处理少样本学习的信息。
- 跨域泛化
已经观察到在一个数据集上训练的ReID模型在其他数据集上表现不佳。一些技术已经被引入来解决这个问题。例如,基于无监督表示学习的方法如CLIP可以用于学习更好的通用表示,然后在不同的数据集上对模型进行微调。
ReID领域的重要术语
Person ID:在数据集中分配给一个人的唯一ID。在大多数应用中,这个“id”每天都会重置。我们可以将人员ID视为传统分类任务中使用的类别标签。
Camera ID:在ReID系统中分配给给定摄像头的唯一ID
分割类型
训练/测试分割:训练/测试分割与任何其他机器学习任务具有相同的目的。
一旦模型训练完毕,图库和查询有助于评估模型。
图库/查询分割:
图库中的图像用于模型学习各个人员的特征表示。一个图库可以包含一个人员ID的多个图像。请注意,图库与训练集不同。
查询分割中的图像用于测试模型在从图库分割中学习的人员ID表示上的性能。
人员再识别系统概述
![Person ReID中涉及的各个步骤[来源]](https://miro.medium.com/v2/resize:fit:640/format:webp/1*Zxm9f0dGZwCoEWw63sjj4Q.png)
该过程的主要应用之一是监视。在大学、学校、购物中心和停车场等公共场所,这增加了一层安全性,以追踪非法活动的肇事者。
数据集准备
为了使数据集更具挑战性并反映真实世界的分布,通常会在一天的不同时间拍摄视频,以考虑光照变化。然而,这并不适用于室内设置中捕捉的视频。
例如,放置在机场航站楼外的摄像机可能由于天气和时间的变化而收集到具有不同照明的数据。而在机场内部,照明由人工照明提供,照明保持基本恒定。
摄像机通常被放置在不同的角度,这增加了数据集中不同视角的复杂性。有时,不同的摄像机设置也会导致数据的变化,这更能反映真实世界的数据。
一些数据集,例如CUHK-CYSU,除了包含由摄像机捕获的图像外,还从电影场景中抓取图像,因为它们主要包含了不同场景中的相同演员。
以下是著名的ReID数据集概览
CUHK03
CUHK03 包含14,097张来自1,467个不同个人身份的图像,使用6个校园摄像机进行图像采集,每个身份由2个校园摄像机捕获。该数据集提供两种类型的注释:手动标记的边界框和由行人检测器生成的边界框。数据集还提供了20个随机的训练/测试划分,其中选择100个身份进行测试,其余身份进行训练。
Market1501
Market-1501 是一个大规模的用于人物重新识别的公共基准数据集。它包含1,501个身份,由六个不同的摄像机拍摄,并使用可变形零件模型行人检测器获得了32,668个行人图像边界框。数据集分为两部分:750个身份用于训练,其余751个身份用于测试。
MSMT 17
MSMT17 是一个多场景、多时间的人物重新识别数据集。该数据集由12个室外摄像机、3个室内摄像机和12个时间段的视频组成,共计180小时。这些视频覆盖了一个较长的时间段,呈现出复杂的照明变化,并包含大量的注释身份,即4,101个身份和126,441个边界框。
边界框生成
这个阶段主要关注从原始视频数据中提取包含人物图像裁剪的边界框。在大规模数据集中手动裁剪所有人物图像是困难的。以前,边界框通常是通过现成的目标检测模型(如可变形零件模型)获得的,但现在可以使用更好的目标检测算法(如YOLO)。全景分割也可以用于更精确定位。
许多数据集还手动标注图像,有些提供由行人检测器预测的图像和手动注释的图像的混合,以创建一个更具挑战性和真实性的数据集,因为在ReID系统中行人需要通过行人检测器实时检测。
模型训练
这个阶段主要关注使用带有注释的人物图像/视频训练一个具有辨别力和鲁棒性的ReID模型。这一步是开发ReID系统的核心,并且是文献中最广泛研究的范式。已经开发出了大量模型来应对各种挑战,集中在特征表示学习、距离度量学习或它们的组合上。
有监督的人物ReID
将ReID视为行人检索问题,大多数现有的工作采用用于图像分类的网络架构作为骨干。ResNet50网络经常用作提取图像特征向量的骨干。
现有的有监督ReID方法主要分为三类:
- 从整个图像中学习全局特征,并通过分类损失进行模型训练。
- 使用全局特征上的硬三元组损失,确保相同人物的特征表示更加接近。 (见下图)
- 学习部分特征。这涉及将图像分成多个水平条带,并从所有身体部位学习更精细的特征。这些方法尝试在部分上使用分类损失。
![Triplet Loss [Source]](https://miro.medium.com/v2/resize:fit:640/format:webp/1*wj2WKGwgkxcOL2C3RQa6SQ.jpeg)
无监督表示学习
对比学习和无监督预训练方法可以学习与有监督方法相当质量的特征表示。有一些提议将表示存储在一个内存库中。MoCo和MoCo v2是一些研究论文采用的自监督学习方法,用于执行无监督预训练。
损失函数
在该领域的大量研究还着重介绍了用于开发更好的ReID模型的新型损失函数。该任务的主要目标是减少类内变异性并增加类间变异性。
其中最广泛使用的损失函数之一是三元组损失。其主要目标是创建一个表示空间,在这个空间中,相关样本之间的相似度比不同样本之间更接近。通过强制锚点、正样本和负样本之间距离的顺序,三元组损失鼓励模型学习嵌入,使具有相同标签的样本更加接近,同时与具有不同标签的样本保持相当的分离。因此,三元组损失有效地嵌入模型以促进具有相同标签的样本的相似性,同时保持与具有不同标签的样本的显著距离。建立在三元组损失基础上,表现更好的其他损失函数包括中心损失和圆形损失。
![Different kinds of loss functions. [source]](https://miro.medium.com/v2/resize:fit:640/format:webp/1*c8qjLW2zI0lrATXId-OrsA.png)
身份损失是用于ReID的另一种损失函数。它将ReID视为图像分类问题。该损失由交叉熵计算。
还使用的另一种损失函数是验证损失,它通过对比损失或二进制验证损失来优化成对关系。
评估指标
为了评估一个ReID系统,累积匹配特性(CMC)和平均精度(mAP)是两个广泛使用的测量指标。
CMC表示正确匹配出现在前k个排名最高的检索结果中的概率。
另一个指标是平均精度(mAP),它用多个真实结果来衡量平均的检索性能。对于ReID,它可以解决两个模型在搜索第一个真实结果时表现相等,但对其他困难匹配的性能有所不同的问题。
重新排序
给定一个查询图像,系统将根据某种相似度度量(如欧几里德距离)从图库集中检索一组与之相似的候选图像。在获得这个初始排序列表之后,一个好的实践是添加一个重新排序步骤。这是因为初始列表有时可能包含误报图像。因此,已经开发了重新排序算法,期望真正的正样本在重新排序列表中获得更高的排名[6]。
重新排序方法已成功研究以提高对象检索的准确性。一些工作利用k最近邻方法来探索邻居之间的相似性以解决重新排序问题。但有时,误报匹配也可能包含在查询图像的k最近邻中,从而影响最终结果。
因此,许多方法还使用了k相互最近邻。当两个图像出现在彼此的k最近邻中时,它们被称为k相互最近邻[6]。因此,这个额外的约束更好地确保真正的匹配被包括在重新排序中。
主要观点
ReID面临许多需要解决的挑战。跨域泛化是一个重要的问题需要解决。数据集的大小,特别是每个人的样本数量,也是影响该系统性能的因素。不同人身上的类似颜色的服装也可能导致性能下降。这些都是需要进一步研究以构建更好的ReID系统的问题。
ReID可以用于增强公共场所、金融机构、学校和其他重要场所的安全性。它已经是多年的研究领域,随着自监督学习和对比学习技术的出现,这些技术有助于学习更好的表示,它有潜力很快被应用于实际的安全解决方案中。
参考文献
[1] Fu, Dengpan, et al. “Unsupervised pre-training for person re-identification.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.
[2] Wieczorek, Mikołaj, Barbara Rychalska, and Jacek Dąbrowski. “On the unreasonable effectiveness of centroids in image retrieval.” Neural Information Processing: 28th International Conference, ICONIP 2021, Sanur, Bali, Indonesia, December 8–12, 2021, Proceedings, Part IV 28. Springer International Publishing, 2021.
[3] 叶芒等。“人物再识别的深度学习:调研与展望。” 《模式分析与人工智能》杂志,44卷6期(2021年):2872–2893。
[4] 萧彤等。“联合检测和识别特征学习用于人物搜索。” 《计算机视觉和模式识别》IEEE会议论文集。2017年。
[5] 孙一凡等。“超越部分模型:通过精细的部分池化进行人物检索(以及强卷积基线)。” 《计算机视觉欧洲会议》论文集(ECCV)。2018年。
[6] 钟准等。“使用k-互逆编码重新排序人物再识别。” 《计算机视觉和模式识别》IEEE会议论文集。2017年。