SalesForce AI研究员推出无需遮罩的OVIS:一种开放词汇实例分割遮罩生成器

实例分割指的是计算机视觉任务,即通过将它们视为不同的实体,将属于同一类别的多个对象在图像中进行识别和区分。在深度学习技术的快速发展下,过去几年中出现了许多实例分割技术。例如,卷积神经网络(CNN)和其他先进的架构,如Mask R-CNN,用于实例分割。这些技术的主要特点是将目标检测能力与像素级分割相结合,以识别对象并生成每个图像实例的精确掩模,从而更好地理解整个图片。

然而,现有检测模型在它们可以识别的基本类别数量方面存在一定的缺陷。先前的试验表明,如果一个检测模型在COCO数据集上进行了训练,它的能力可以达到识别约80个类别。然而,任何其他类别都需要人工介入,这是费时费力的。为了解决这个问题,存在一些开放词汇(OV)方法,利用图像-标题对和视觉语言模型来学习新类别。然而,当涉及到基本和新颖类别的学习时,监督方式存在巨大差异。这往往导致在基本类别上过度拟合,对新颖类别的泛化能力不佳。因此,需要一种方法来增强这些检测方法,以便在不需要太多人工干预的情况下检测新类别。这将使模型更加实用和可扩展,适用于实际应用。

为了解决这个问题,Salesforce AI的研究人员设计了一种方法,从图像-标题对中生成边界框和实例掩模注释。他们提出的方法,Mask-free OVIS pipeline,利用假标注注释,利用伪掩模注释来学习基本和新类别。这种方法消除了繁琐的人工注释的需求,并解决了过度拟合的问题。实验评估表明,他们的方法超过了现有最先进的开放词汇实例分割模型。此外,他们的研究已经在2023年的著名计算机视觉和模式识别会议上得到了认可和接受。

Salesforce的研究人员设计了一个由两个主要阶段组成的流程:伪掩模生成和开放词汇实例分割。在第一阶段,从图像-标题对中为感兴趣的对象创建伪掩模注释。通过利用预训练的视觉语言模型,对象的名称作为文本提示定位对象。此外,使用GradCAM进行迭代遮罩处理,以优化伪掩模并确保其准确覆盖整个对象。在第二阶段,利用先前生成的边界框,使用弱监督分割(WSS)网络来选择与GradCAM激活图具有最高重叠的提案。最后,使用生成的伪注释训练Mask-RCNN模型,完成流程。

因此,这种流程通过利用预训练的视觉语言模型和弱监督模型的能力自动生成伪掩模注释,从而消除了任何人工干预的需求,并可用作附加的训练数据。为了评估他们的流程,研究人员在MS-COCO和OpenImages等热门数据集上进行了多项实验。研究结果表明,采用他们方法中的伪注释,可以在检测和实例分割任务中取得出色的性能,超过了依赖于人工注释的其他方法。Salesforce研究人员设计的独特的视觉语言引导的伪注释生成方法为产生更先进和精确的实例分割模型铺平了道路,从而消除了需要人工注释的需求。