微软和清华大学的研究人员提出了SCA(分割和说明任何)来有效装备SAM模型生成区域说明的能力
微软和清华大学研究人员提出SCA技术:有效生成区域说明的SAM模型装备新能力
计算机视觉和自然语言处理的交点长期以来一直在应对在图像中为实体生成区域字幕的挑战。该任务因训练数据中缺乏语义标签而变得尤为复杂。研究人员一直致力于寻找有效解决这一差距的方法,试图使模型能够理解和描述多样的图像元素。
Segment Anything Model (SAM) 已经成为一个强大的类别无关分割模型,展示了出色的对多样实体进行分割的能力。然而,SAM需要生成区域字幕,限制了其潜在的应用。作为回应,微软和清华大学的研究团队引入了一个名为 SCA (Segment and Caption Anything) 的解决方案。SCA可以被视为对SAM的战略性增强,特别设计用于使其能够高效生成区域字幕。
类似于构建块,SAM提供了分割的强大基础,而SCA则在这个基础上添加了一个关键层次。这个附加层次以一种轻量级的基于查询的特征混合器的形式存在。与传统的混合器不同,该组件将SAM与因果语言模型连接起来,将区域特定的特征与语言模型的嵌入空间对齐。这种对齐对于后续的字幕生成至关重要,创造了SAM的视觉理解和语言模型的语言能力之间的协同效应。
SCA的架构是三个主要组件(图像编码器、特征混合器和用于蒙版或文本的解码器头)的一个深思熟虑的组合。特征混合器作为模型的关键所在,它是一个轻量级的双向变压器。它作为SAM和语言模型之间的连接组织,优化了区域特定特征与语言嵌入之间的对齐。
SCA的一个关键优势在于其效率。由于可训练参数数量较小,通常在数千万数量级,训练过程更快更可扩展。这种效率来自于战略优化,只专注于额外的特征混合器,同时保持SAM令牌完好无损。
研究团队采用了一种弱监督的预训练策略,以克服区域字幕数据的稀缺性。在这种方法中,模型在目标检测和分割任务上进行预训练,利用包含类别名称而非完整句子描述的数据集。这种弱监督预训练是超越有限的区域字幕数据,传递视觉概念的通用知识的实际解决方案。
进行了大量的实验来验证SCA的有效性。与基准线的对比分析,不同的视觉大型语言模型 (VLLMs) 的评估以及各种图像编码器的测试已经进行。该模型在指代表达生成 (REG) 任务上展示出了强大的零样本性能,展示了它的适应性和泛化能力。
总之,SCA在区域字幕方面是一种有前景的进展,无缝地增加了SAM强大的分割能力。轻量级特征混合器的战略性增加,加上训练的效率和可扩展性,使SCA成为计算机视觉和自然语言处理领域中一个值得关注的解决方案。