这篇人工智能论文介绍了RTMO技术:利用双1-D热图在实时多人姿势估计中取得的突破

揭秘实时多人姿势估计的突破技术:RTMO通过双1-D热图实现的人工智能进展

姿势估计领域是一个快速发展的领域,涉及确定物体在空间中的位置和方向,研究人员不断开发新的方法提高其准确性和性能。清华深圳国际研究生院、上海人工智能实验室和南洋理工大学的研究人员最近通过开发新的RTMO框架为该领域做出了贡献。该框架有潜力提高姿势估计的准确性和效率,并可能对机器人技术、增强现实和虚拟现实等各种应用产生重大影响。

RTMO是一个一阶段的姿势估计框架,旨在克服现有方法在准确性和实时性能之间的权衡问题。RTMO将坐标分类和密集预测模型进行集成,以实现与自顶向下方法相当的准确性,同时保持较高的速度。

实时多人姿势估计是计算机视觉领域的一个挑战,现有方法需要在速度和准确性之间取得平衡。目前的方法,无论是自顶向下还是一阶段,都存在推理时间或准确性的限制。RTMO是一个一阶段的姿势估计框架,将坐标分类与YOLO架构相结合。通过动态坐标分类器和专门设计的损失函数,RTMO优于现有的一阶段姿势估计器,在保持实时性能的同时实现了更高的COCO平均精确度。

该研究提出了一种实时多人姿势估计框架RTMO,采用了类似YOLO的架构,使用CSPDarknet作为骨干网络和混合编码器。双卷积块在每个空间层面生成得分和姿势特征。通过采用动态坐标分类器和专门的损失函数用于热图学习,该方法解决了坐标分类和密集预测模型之间的不兼容性。采用动态二进制编码创建特定bin的表示,并采用高斯标签平滑和交叉熵损失进行分类任务。

RTMO是一个一阶段姿势估计框架,通过实现高准确性和实时性能在多人姿势估计方面表现出色。在超越一流的一阶段姿势估计器的同时,它在使用相同骨干网络的情况下比之前的方法快约九倍。最大的模型RTMO-l,在COCO val2017上实现了74.8%的AP,并在单个V100 GPU上每秒处理141帧。在不同的场景中,RTMO系列在性能和速度方面超过了相似的轻量级一阶段方法,并展示了高效和准确的特性。通过额外的训练数据,RTMO-l达到了81.7的COCO平均精确度,实现了最新的技术水平。该框架生成准确的空间热图,为每个关键点提供了强大而具有上下文感知的预测。

https://arxiv.org/abs/2312.07526v1

总之,该研究可以总结为以下几点:

  • RTMO是一个准确性高、实时性强的姿势估计框架。
  • 它在YOLO架构中无缝集成了坐标分类。
  • RTMO使用创新的坐标分类技术,通过坐标bin实现精确定位关键点。
  • 它优于先进的一阶段姿势估计器,并在COCO上获得更高的平均精确度,同时速度显著提升。
  • RTMO在复杂的多人场景中表现出色,为强大的上下文感知预测生成了准确的空间热图。
  • RTMO在现有的自顶向下和一阶段多人姿势估计方法之间平衡了性能和速度。