谷歌和乔治亚理工学院的研究人员介绍了DiffSeg:一种用于创建分割掩模的简单后处理人工智能方法

谷歌和乔治亚理工学院研究人员介绍了DiffSeg:一种简单的后处理AI方法,用于创建分割掩模

计算机视觉任务中的语义分割的目标是为图像中的每个像素分配一个类别或对象。预期的是得到一个密集的像素级分割图,其中每个像素对应于特定的类型或对象。许多后续处理都依赖于它作为先决条件,包括图像处理、医学影像、自动驾驶等。对于具有未知类别的图像进行零样本分割比有监督的语义分割要困难得多,有监督的语义分割会提供目标数据集和已知的类别。

最近热门的工作SAM展示了通过训练一个具有1.1B分割注释的神经网络,实现了对任意图像的零样本迁移。这是确保分割可以用作各种任务的构建模块而不仅仅是局限于具有预定义标签的特定数据集的重要一步。然而,为每个像素收集标签是昂贵的。因此,在最不受限制的情况下(即无注释和对目标没有先验知识),研究和生产中对无监督和零样本分割技术的探索具有重要的意义。

Google和Georgia Tech的研究人员提出利用稳定扩散(SD)模型的能力构建一个通用分割模型。最近,稳定扩散模型生成了具有最佳提示的高分辨率图像。在扩散模型中,可以假设有关对象聚类的数据的存在。

由于扩散模型中的自注意力层产生注意张量,团队引入了DiffSeg,一种简单而有效的后处理方法,用于创建分割掩码。算法的三个主要部分是注意力聚合、迭代式的注意力合并和非最大化抑制。DiffSeg使用迭代合并技术,从采样的锚点网格开始以空间一致的方式聚合4D注意张量,从而在多个分辨率上保留视觉信息。采样的锚点作为合并相似对象的注意力掩码的起点。KL散度确定两个注意力图之间的相似程度,从而控制合并过程。

DiffSeg是常见的基于聚类的无监督分割算法的一种流行选择,因为它是确定性的,不需要输入聚类数目的信息。DiffSeg可以接收图像作为输入,并生成高质量的分割结果,无需任何先验知识或专门设备(如SAM)。

尽管使用的辅助数据比以前的方法少,但DiffSeg在两个广泛使用的数据集上取得了更好的结果。研究人员在两个广泛使用的数据集上评估了DiffSeg:用于无监督分割的COCO-Stuff-27和用于自动驾驶的专用数据集Cityscapes。与之前的无监督零样本SOTA方法相比,提出的方法在COCO-Stuff-27上的像素准确率和平均IoU上分别提高了26%和17%。