CMU研究人员推出BUTD-DETR:一种基于语言表达的人工智能(AI)模型,能够直接与语言表达相结合,并检测出语言表达中提到的所有物体

CMU研究人员推出BUTD-DETR:一种AI模型,结合语言表达并检测出所有物体

找到给定图像中的所有“对象”是计算机视觉的基础工作。通过创建一个类别词汇表并训练模型来识别该词汇表中的实例,可以避免“什么是对象?”这个问题。当尝试将这些目标检测器用作实用的家庭代理时,情况变得更糟。当请求在2D或3D环境中将参考话语与物体建立关联时,模型通常会从预训练的检测器提供的一组物体建议中选择所引用的物品。结果,检测器可能会错过与更细粒度的视觉事物相关的话语,例如椅子、椅子腿或椅子腿的前端。

研究团队提出了一种基于自下而上和自上而下检测变换器(BUTD-DETR,发音为Beauty-DETER)的模型,该模型直接以口语话语作为条件,并找出所有提到的项目。当话语是一组物体类别的列表时,BUTD-DETR的功能类似于正常的目标检测器。它通过标记了语音中提到的所有项目的边界框以及固定词汇的物体检测数据集上的图像-语言配对进行训练。然而,通过一些调整,BUTD-DETR也可以将语言短语锚定在3D点云和2D图片中。

BUTD-DETR通过关注口头和视觉输入来解码物体框,而不是随机地从池中选择它们。自下而上的、与任务无关的注意力在定位项目时可能会忽略一些细节,但由语言引导的注意力可以填补这些空白。场景和口头话语被用作模型的输入。使用已经训练过的检测器提取出盒子的建议。然后,使用每个模态专用的编码器从场景、盒子和语音中提取出视觉、盒子和语言标记。这些标记通过相互注意力来在其上下文中获得意义。经过改进的视觉标记启动了解码盒子并跨越多个流的对象查询。

目标检测的实践是一种基于引用的语言,其中话语是正在检测的事物的类别标签。研究人员使用目标检测作为将检测提示引用与检测器的词汇表中的某些对象类别随机选择并通过将它们进行序列化生成合成话语的基础,这些检测提示被用作辅助监督信息,目标是在场景中找到指定在提示中指定的类别标签的所有出现。模型被指示避免为在视觉输入示例中没有的类别标签进行盒子关联(例如上面的“person”)。在这种方法中,单个模型可以同时进行语言引导和对象识别,同时共享这两个任务的相同训练数据。

成果

开发的MDETR-3D等效模型在性能上表现不佳,而BUTD-DETR在3D语言引导方面取得了最先进的性能。

BUTD-DETR还在2D领域中发挥作用,并通过可变注意力等架构增强,在收敛速度上与MDETR相当。这种方法在统一2D和3D的引导模型方面迈出了一步,因为它可以通过进行微小调整轻松适应两个维度中的功能。

对于所有3D语言引导基准测试,BUTD-DETR相比最先进的方法(SR3D、NR3D、ScanRefer)显示出显著的性能提升。此外,它是在ECCV关于3D场景语言的研讨会上的最佳提交,该研讨会举办了ReferIt3D比赛。然而,当在大规模数据上进行训练时,BUTD-DETR可能与最佳现有方法在2D语言引导基准测试上竞争。具体而言,研究人员通过对2D模型进行高效的可变注意力使模型的收敛速度是最先进的MDETR的两倍。

下面的视频描述了完整的工作流程。