在3D中玩“瓦尔多在哪里?”:OpenMask3D是一个可以用开放式词汇查询在3D中分割实例的AI模型

OpenMask3D是一个用开放式词汇查询在3D中分割实例的AI模型,可以让您在3D中玩“瓦尔多在哪里?”

图像分割在过去十年中取得了长足的进展,得益于神经网络的发展。现在可以在复杂场景中以毫秒级别完成多个对象的分割,并且结果非常准确。另一方面,我们还有一个任务需要完成,那就是3D的实例分割,我们还有很长的路要走,才能赶上2D图像分割的性能。

3D实例分割已经成为一个关键任务,在机器人技术和增强现实等领域具有重要的应用。3D实例分割的目标是预测3D场景中的对象实例掩码及其对应的类别。虽然在这个领域已经取得了显著的进展,但现有的方法主要在封闭集合范式下运行,其中对象类别的集合是有限的,并且与用于训练的数据集密切相关。

这种限制带来了两个基本问题。首先,封闭词汇的方法很难理解训练期间遇到的对象类别之外的场景,导致在识别新对象或对其进行错误分类时可能遇到困难。其次,这些方法在处理自由查询方面天然存在局限性,阻碍了它们在需要理解和处理特定对象属性或描述的场景中的有效性。

提出了开放词汇的方法来解决这些挑战。这些方法可以处理自由查询,并实现对训练数据中不存在的对象类别的零-shot学习。通过采用更灵活和广泛的方法,开放词汇方法在场景理解、机器人技术、增强现实和3D视觉搜索等任务中具有多个优势。

实现开放词汇的3D实例分割可以显著提高依赖于理解和操作复杂3D场景的应用的灵活性和实用性。让我们来介绍一下OpenMask3D,这是一个有前途的3D实例分割模型。

OpenMask3D可以分割对象的实例。来源:https://arxiv.org/pdf/2306.13631.pdf

OpenMask3D旨在克服封闭词汇方法的局限性。它处理预测3D对象实例掩码和计算掩码特征表示的任务,同时超越了预定义概念的推理。OpenMask3D在RGB-D序列上运行,并利用相应的3D重建几何来实现其目标。

它使用由一个无类别掩码提案头和一个掩码特征聚合模块组成的两阶段流程。OpenMask3D识别出明显存在实例的帧,并从每个掩码的最佳图像中提取CLIP特征。最终的特征表示在多个视角上聚合,并与每个3D实例掩码关联。这种基于实例的特征计算方法使得OpenMask3D能够根据与任何给定文本查询的相似性检索对象实例掩码,实现开放词汇的3D实例分割,并超越封闭词汇范式的限制。

OpenMask3D概述。来源:https://arxiv.org/pdf/2306.13631.pdf

通过为每个对象实例计算一个掩码特征,OpenMask3D可以根据与任何给定查询的相似性检索对象实例掩码,使其能够执行开放词汇的3D实例分割。此外,OpenMask3D比训练或微调的对应物更好地保留了关于新颖和长尾对象的信息。它还超越了封闭词汇范式的限制,使得能够根据与对象属性(如语义、几何、可行性和材料属性)相关的自由查询对对象实例进行分割。