这项人工智能研究介绍了一种新颖的两阶段姿势提取方法,用于全身姿势估计
This AI research introduces a novel two-stage pose extraction method for full-body pose estimation.
众多以人为中心的感知、理解和创造任务依赖于全身姿势估计,包括3D全身网格恢复、人物对象交互和姿势条件下的人体图像和动作生成。此外,使用OpenPose和MediaPipe等用户友好的算法,记录人体姿势以进行虚拟内容开发和虚拟现实/增强现实已经显著增加了流行度。尽管这些工具很方便,但它们的性能仍然需要提高,这限制了它们的潜力。因此,人体姿势评估技术的更多发展对于实现用户驱动的内容生成的承诺至关重要。
相对而言,与仅检测人体关键点的人体姿势估计相比,全身姿势估计面临更多困难,原因如下:
- 人体的分层结构用于细粒度关键点定位。
- 手部和面部的小分辨率。
- 图像中复杂的身体部位匹配多个人,特别是在遮挡和困难的手部姿势情况下。
- 数据限制,特别是针对全身图像的多样的手部姿势和头部姿势。
此外,在部署之前,模型必须压缩为一个轻量级网络。蒸馏、修剪和量化是基本的压缩技术。
知识蒸馏(KD)可以提高紧凑模型的效果,而不会在推理过程中增加不必要的开销。这种方法在分类、检测和分割等各种任务中都有广泛的应用,它允许学生从经验丰富的教师那里获得知识。本研究对全身姿势估计的KD进行了调查,产生了一组性能良好且高效的实时姿势估计器。来自清华大学深圳国际研究生院和国际数字经济学院的研究人员特别提出了一种名为DWPose的革命性的两阶段姿势蒸馏架构,如图1所示,提供了尖端的性能。他们使用最新的姿势估计器RTMPose,经过COCO-WholeBody训练,作为他们的基本模型。
他们在第一阶段蒸馏中原生地使用教师(例如RTMPose-x)的中间层和最终的逻辑回归来指导学生模型(例如RTMPose-l)。先前的姿势训练中可以通过可见性来区分关键点,并且只有可见的关键点用于监控。而他们使用教师的全部输出,包括可见和不可见的关键点作为最终的逻辑回归,可以传达精确和全面的值,以帮助学生的学习过程。他们还采用了一种权重衰减的方法来提高效果,在训练过程中逐渐降低设备的权重。第二阶段的蒸馏提出了一种以头部为中心的自我蒸馏,以增加头部的容量,因为更好的头部会决定更准确的定位。
他们构建了两个相同的模型,选择一个作为要更新的学生,另一个作为教师。只有学生的头部通过基于逻辑回归的蒸馏进行更新,其余部分保持冻结。值得注意的是,这种即插即用的策略适用于密集预测头部,并且无论是使用蒸馏还是不使用蒸馏从头开始训练,都能够在比较少的训练时间内获得更好的结果。解决不同大小的人体部位的数据的数量和多样性将影响模型的性能。由于数据集需要全面注释的关键点,现有的估计器必须帮助准确定位细粒度的手指和面部标志。
因此,他们还加入了一个额外的UBody数据集,其中包含在各种真实环境中拍摄的众多面部和手部关键点,以研究数据的影响。因此,可以这样说他们的贡献:
• 为了克服全身数据的限制,他们探索更全面的训练数据,特别是多样化和表达力强的手势和面部表情,使其适用于实际应用。
• 他们引入了一种两阶段的姿势知识蒸馏方法,追求高效和精确的全身姿势估计。
• 他们提出的蒸馏和数据技术可以大大提高RTMPose-l的AP值,从64.8%提升到66.5%,甚至超过RTMPose-x指导模型的65.3% AP值,使用最新的RTMPose作为基础模型。此外,他们证实了DWPose在生成工作方面的强大效果和高效性。