这项AI研究提出了一种将姿势物体识别作为下一个标记预测的新方法

颠覆AI研究:创新姿势物体识别作为下一代标记预测的新方法

我们如何有效地进行物体识别?Meta AI和马里兰大学的研究人员团队通过开发一种新的方法来解决物体识别问题,该方法利用语言解码器从图像嵌入中预测文本标记并形成标签。他们还提出了一种创建更高效的解码器的策略,而不会影响性能。

物体识别在深度学习时代之前就存在,并帮助进行图像标注。传统方法涉及区域切片和词语预测,使用词典将区域与词语对齐。在共享空间中共享图像和文本的共埋模式解决了图像-文本匹配问题,强调了短语对齐。图像标注从主题模型发展到基于Transformer的架构。如GPT和LLaMA等语言模型为视觉感知做出了贡献,并应用于检测、少样本识别、解释和推理。语言模型的架构概念,如前缀思想,对视觉-语言领域产生了影响并得到了探索。

该研究通过引入一个具有图像编码器生成嵌入和语言解码器预测物体标签的框架来解决计算机视觉中的物体识别问题。与传统的具有固定嵌入的方法不同,提出的方法将识别视为下一个标记的预测,从图像嵌入中实现了自回归解码标签。它消除了预定义标签的需求,促进了灵活和高效的识别。包括非因果关注掩码和紧凑解码器在内的关键创新提高了效率而不损害性能,为计算机视觉中的物体识别提供了一种新的解决方案。

该研究提出了一种基于下一个标记预测的物体识别方法,使用语言解码器从图像嵌入中预测文本标记以创建标签。采用自回归方法,包括非因果关注掩码用于解码器独立地建模标记,并将图像标记视为前缀。在推理过程中,采用了一次采样的方式,通过概率对多个标签进行并行的标记采样。为了提高效率,提出了一种紧凑解码器构建策略,通过从预训练语言模型中移除中间块来实现,同时保留性能。

该研究在对CLIP、Open Flamingo、LLaVA、BLIP-2、InstructBLIP和CaSED进行了全面的比较,评估了前k个预测和精确率-召回率曲线。所提出的方法在前10个预测方面持续优于竞争对手,表明在标签生成方面具有更高的相关性。精确率-召回率曲线呈现出强线性相关性,说明在数据集上具有更好的预测质量,随着k的增加,召回率也增加。关于解码器截断的消融研究显示在CC3M上略微降低性能,但在COCO和OpenImages上没有变化。这凸显了初始LLaMA 7B模型块对物体识别的重要性,并建议在第11个之后移除块以获得更紧凑的解码器。

总之,所提出的基于下一个标记预测的自回归方法在生成数据集的前10个预测方面优于其他方法,表明在标签生成方面具有更高的相关性。精确率-召回率曲线呈现出强线性相关性,表示在所有测试数据集上具有更好的预测质量。关于解码器截断的消融研究显示在CC3M上略有性能下降,但在COCO和OpenImages上没有变化。此外,通过删除LLaMA模型中的中间Transformer块,可以获得具有相当性能的更紧凑的解码器,突显LLMs中一部分知识对物体识别的重要性。

进一步的研究可以致力于通过探索缓解策略来解决一次采样中的竞争问题。另一个潜在的方向是研究生成模型(尤其是LLMs)与物体识别的直接对齐,而无需预定义子集或参考中心。此外,检验大幅增加训练数据量的影响,以减少对解释或识别未见的数据和概念的依赖,符合逐步学习新标签的开放世界范式,也将是有用的。