“见面SegGPT:通过上下文推理在图像或视频中执行任意分割任务的通用模型”

见面SegGPT 通用模型在图像或视频中执行任意分割任务的上下文推理

在计算机视觉中,像前景分割、交互式分割、语义分割、实例分割和全景分割等各种分割任务中,分割是最基本的挑战之一。近年来,在这些专家级分割模型中,取得了相当大的进展。然而,这些模型只适用于特定任务、分类、粒度、数据格式等,当需要适应新的环境时,比如在视频中而不是图片中分割新概念或对象时,就需要训练一个新模型。

在这项研究中,他们的目标是训练一个能处理无限多种分割任务的单一模型。这需要耗费大量时间进行注释工作,并且需要更可持续地适用于许多分割任务。主要的困难在于两个方面:(1)将各种不同类型的数据合并到训练中,例如部分分割、语义分割、实例分割、全景分割、人物分割、医学图像、航拍图像等;(2)创建一个可推广的训练方案,与传统的多任务学习不同,能够灵活地定义任务并处理其范围之外的任务。为了克服这些问题,北京科学院、浙江大学和北京大学的研究人员引入了SegGPT,这是一个用于上下文分割任何内容的通用范式。

他们将许多分割任务集成到一个上下文学习框架中,并将分割视为视觉感知的通用格式。该框架可以通过将各种分割数据类型转换为相同的图片格式来处理。通过为每个数据样本使用随机的颜色映射,SegGPT训练问题被表述为一个上下文着色问题。目标是仅通过上下文来着色与类别、对象实例、组件等相关的区域。通过采用随机着色方案,模型被迫参考上下文数据来执行给定的任务,而不是依赖于特定的颜色。这使得训练可以更具适应性和通用性。

在使用标准的ViT和简单的平滑L1损失进行训练时,其余的训练组件保持不变。训练后,SegGPT可以使用上下文推理来执行各种分割任务,如图片或视频中的物体实例、物体、部分、轮廓、文本等。他们提出了一种简单但强大的上下文集成技术,即特征集成,可以帮助模型利用多示例提示场景。通过为专用用例定制一个自定义提示,例如域内ADE20K语义分割,SegGPT还可以轻松地作为专家模型而不修改模型参数。

这是他们的主要贡献。

(1)他们首次展示了一个单一的通用模型,可以自动完成各种分割任务。

(2)对于各种任务,如少样本语义分割、视频物体分割、语义分割和全景分割,他们直接评估了预训练的SegGPT,即无需微调。

(3)从主观和统计上看,他们的结果在分割内外目标方面表现出很强的能力。然而,由于他们认为通用模型可能无法处理某些任务,他们的研究并不保证在所有基准测试中实现新的最先进结果或超过现有的专门方法。