“打破3D实例分割的边界：改进伪标记和逼真场景的开放世界方法”

突破3D实例分割的界限：改进伪标记并打造逼真场景的开放世界方法

通过提供物体实例级别的分类和语义标注，3D语义实例分割试图识别由点云或网格表示的给定3D场景中的物体。包括机器人、增强现实和自动驾驶在内的众多视觉应用都依赖于在3D空间中分割物体的能力。随着用于收集深度数据的传感器的进步，文献中描述了多个具有实例级别注释的数据集。由于大规模3D数据集的可用性和深度学习技术的进展，近年来提出了许多3D实例分割策略。

3D实例分割系统依赖于公开可访问的数据集的一个重要缺点是学习预定的物品标签集（词汇）。然而，实际世界中存在许多物体类别，并且推断结果可能包含很多未见或未知类别。当前的技术忽略了这些未知类别，它们会被视为背景元素并被赋予背景标签。这使得智能识别算法无法识别未被识别或异常的非背景元素。最近的研究已经对于2D物体识别的开放世界学习环境进行了调查，因为检测陌生物体的重要性。

该模型旨在在开放世界环境中识别陌生物体。一旦新的类别被标记，就会逐步学习新的集合而无需重新训练。尽管先前的方法主要适用于开放世界的2D物体识别，但它们尚未在3D领域进行调查。理解物体在3D中的外观，并将它们与背景和其他物体类别分隔开是最大的挑战。如图1所示，开放环境中的3D实例分割提供了更灵活的解决方案，使模型能够识别未知物体，并向专家询问这些新类别的注释以进行进一步的训练。

图1：开放环境中的3D实例分割。模型在每个迭代学习阶段中发现新的物体，操作员逐步为其中一些物体分配标签，并将它们添加到当前的知识库中以进行持续训练。

然而，该策略具有几个缺点：三个因素使高质量的伪标签技术成为必需：（一）未知类别的注释缺失，（二）已知和未知类别的预测特征的相似性，以及（三）需要更可靠的物体评分方法来区分好坏的3D点云预测掩码。在本研究中，来自穆罕默德·本·扎耶德人工智能大学（MBZUAI）、阿尔托大学、澳大利亚国立大学和林雪平大学的研究人员研究了一个独特的问题设置，称为开放环境室内3D实例分割，其试图要分割未知类别的物体，并逐渐添加新的类别。他们构建了实际协议和分割点以验证3D实例分割技术识别未知物体的能力。与增量学习设置类似，推荐的配置将未知物体标签添加到已识别类别的列表中。他们提供了一个概率修正的未知物体标识符，从而提高了物体识别的质量。据他们所知，他们是第一批在开放世界环境中研究3D实例分割的研究人员。

他们的研究具有以下主要贡献：

• 他们提供了第一种开放世界3D室内实例分割方法，具有特殊的机制，可以准确识别3D未知物体。他们使用自动标记方法来区分已知和不可知类别标签，在训练过程中生成伪标签。通过根据物体评分的分布修改未知类别的可能性，他们进一步提高了推理中伪标签的质量。

• 为了对开放世界3D室内分割进行全面评估，他们提出了精心选择的开放世界划分，涵盖了已知与未知和增量学习超过200个任务。他们建议的划分使用了多种实际情况，包括物体类别的固有分布（基于频率）、在探索内部空间时发现的不同类别类型（基于区域）以及外部世界中物体类别的随机化。多次测试证明了建议解决方案在填补技术与理想解决方案之间的性能差距方面的价值。

AI Shorts,Applications,Artificial intelligence,Computer vision,Editors Pick

“打破3D实例分割的边界：改进伪标记和逼真场景的开放世界方法”

突破3D实例分割的界限：改进伪标记并打造逼真场景的开放世界方法

这篇AI论文揭示了一种理解深度学习模型的新方法：通过概念相关性传播（CRP）来解开“何处”和“何物”

公平分类与对抗去偏差

Lee Celina，Zindi的CEO兼联合创始人——访谈系列

如何提升大型语言模型的质量？认识PIT：一种隐...

迷力AI将Mistral 7B开源：一个小巧而强大的语...

安卓14：更多定制、控制和易用性功能

使用AWS Trainium进行快速且经济高效的LLaMA 2...

今天公司可以实施的5个生成型人工智能用例

人工智能