华美和多伦多大学的研究员们推出了LabelFormer:一种高效的基于Transformer的人工智能模型,用于改进自动标注的物体轨迹

华美与多伦多大学研究员联合推出了LabelFormer 基于Transformer的高效人工智能模型,用于优化自动标注物体轨迹

现代自动驾驶系统经常使用大规模手动注释的数据集来训练目标检测器,以识别图片中的交通参与者。最近,自动标注方法因其在计算成本低于人工注释并且所产生的标签质量可比的情况下,可以提供更大规模的数据集而引起了更多关注。可以使用这些自动标注的数据集训练更准确的感知模型。由于LiDAR是许多自动驾驶平台上使用的主要传感器,他们在输入后使用它。此外,他们专注于监督场景,其中自动标注器可以使用一组地面真值标签进行训练。

这个问题场景也被称为离线感知,它没有实时限制,并且与在线感知相比,具有对未来观测的访问权限。如图1所示,最流行的模型通过两个步骤来解决离线感知问题,从人工注释过程中获得灵感。首先使用“检测-跟踪”框架获取对象及其粗糙边界框轨迹,然后独立地对每个对象跟踪进行精炼。第一阶段的主要目标是尽可能追踪场景中的多个对象,以获得高召回率。另一方面,第二阶段专注于轨迹精炼,生成高质量的边界框。他们称第二步为“轨迹精炼”,这是本研究的主题。

图1:两阶段的自动标注范 paradigm。第一步使用“检测-跟踪”范 paradigm收集粗糙对象的轨迹。第二步单独精炼每条轨迹。

处理对象遮挡、观测稀疏性随着范围增加以及不同大小和运动模式的对象使得这项工作变得困难。为了解决这些问题,必须设计一种能够高效有效地利用完整对象轨迹的时间上下文的模型。然而,目前的技术不足,因为它们旨在以次优的滑动窗口方式处理动态对象轨迹,即在有限的时间上下文中在每个时间步骤中单独应用神经网络来提取特征。这可能更有效,因为特征会在多个重叠窗口中从相同帧中重复获取。因此,为了保持在计算预算内,结构只能利用相对较少的时间上下文。

此外,早期的努力使用复杂的流程,其中包含多个不同的网络(例如,以适应静态和动态对象的不同处理方式),这些方法很难构建、调试和维护。通过使用一种不同的策略,来自Waabi和多伦多大学的研究人员在本文中提供了一种简单、有效且经济的轨迹精炼技术LabelFormer。它通过利用整个时间环境来产生更精确的边界框。此外,他们的解决方案在计算效率方面优于基于窗口的方法,为自动标注提供了与人工注释相比的明显优势。为了实现这一点,他们使用自注意块构建了一个基于Transformer的架构,以在每个时间步骤中分别编码初始边界框参数和LiDAR观测。

他们的方法通过一次单独的精炼操作来消除不必要的计算,因此在推理过程中每个被跟踪物品只需要使用一次。他们的设计也比先前的方法简单得多,可以轻松处理静态和动态对象。他们对高速公路和城市数据集的全面实验评估表明,他们的方法比基于窗口的方法更快,并且具有更高的性能。他们还展示了LabelFormer如何自动标注更大规模的数据集,以训练下游物体检测器。这样可以比仅准备人工数据或使用其他自动标注器获得更准确的检测结果。