“遇见CutLER(Cut-and-LEaRn):一种简单的人工智能方法,用于训练无需人工注释的目标检测和实例分割模型”

CutLER A simple AI approach for training unsupervised object detection and instance segmentation models

目标检测和图像分割是计算机视觉和人工智能中关键的任务。它们在许多应用中至关重要,如自动驾驶车辆、医学成像和安全系统。

目标检测涉及在图像或视频流中检测对象实例。它包括识别对象的类别和其在图像中的位置。目标是在对象周围产生一个边界框,然后可以用于进一步分析或在视频流中跟踪对象的时间。目标检测算法可以分为两类:一阶段和二阶段。一阶段方法速度更快但准确性较低,而二阶段方法速度较慢但准确性更高。

另一方面,图像分割涉及将图像分割成多个片段或区域,其中每个片段对应于不同的对象或对象的一部分。目标是用语义类别(如“人”、“汽车”、“天空”等)标记图像中的每个像素。图像分割算法可以分为两类:语义分割和实例分割。语义分割涉及将每个像素标记为类别标签,而实例分割则涉及在图像中检测和分割个别对象。

近年来,由于深度学习方法具有学习图片输入的分层表示的能力,目标检测和图像分割算法取得了显著进展。然而,训练这些模型需要特定的注释,如对象框、掩模和局部点,这既具有挑战性又耗时。在不计算开销的情况下,仅对COCO数据集中的164K张图片进行掩模注释,仅针对80个类别,就需要超过28K小时。

通过一种名为Cut-and-LEaRn(CutLER)的新型架构,作者试图通过研究无监督的目标检测和实例分割模型来解决这些问题,这些模型可以在没有人工标签的情况下进行训练。该方法包含三个简单的架构和数据通用机制。下图显示了所提出架构的流程。

来源:https://arxiv.org/pdf/2301.11320.pdf

CutLER的作者首先引入了MaskCut,这是一个工具,根据自我监督预训练的视觉转换器ViT计算的特征,能够自动生成每个图像的多个初始粗略掩模。MaskCut已经被开发出来解决当前掩码工具的局限性,如Normalized Cuts(NCut)。实际上,NCut的应用仅限于图像中的单个目标检测,这可能非常限制。因此,MaskCut通过迭代地将NCut应用于掩码相似性矩阵,将其扩展为发现每个图像中的多个对象。

其次,作者使用这些粗略掩模实施了一种简单的损失丢弃策略来训练检测器,这些掩模对于MaskCut未检测到的对象是稳健的。尽管使用这些粗略掩模进行训练,检测器可以对真实情况进行完善并生成更准确的掩模(和边界框)。因此,对模型预测进行多轮自训练可以使模型从关注局部像素相似性发展到考虑整体对象几何形状,从而产生更精确的分割掩模。

下图对比了所提出的框架与最先进的方法。

来源:https://arxiv.org/pdf/2301.11320.pdf

这是CutLER的摘要,它是一个新颖的AI工具,用于准确和一致的对象检测和图像分割。

如果您对此框架感兴趣或想了解更多信息,您可以找到一个链接到论文和项目页面。