微软研究院推出Florence-2:一种新颖的视觉基础模型,采用统一的基于提示的表征方法,可用于多种计算机视觉和视觉语言任务
微软研究院发布Florence-2:创新的视觉基础模型,融合统一的基于提示的表征方法,适用于多项计算机视觉和视觉语言任务


在人工通用智能(AGI)系统中,使用预先训练的、适应能力强的表示已经成为一种明显的趋势,这为各种应用提供了与任务无关的优势。自然语言处理(NLP)就是这种趋势的一个很好的例子,因为复杂的模型通过全面了解多个领域和任务的信息并按照直观的指导进行灵活操作。NLP的受欢迎程度在计算机视觉领域鼓励了一种补充策略。计算机视觉面临的挑战是需要在通用表示中具备广泛的感知能力,处理复杂的视觉数据,如特征、遮蔽轮廓和物体摆放。在计算机视觉中,实现通用表示需要熟练处理两个维度中排列的各种具有挑战性的任务,如图1所示。
图1
空间层次:模型必须识别不同尺寸的空间信息,理解细粒度的像素细节和图像级的概念。为了支持视觉中复杂的空间层次,模型必须能够处理多种粒度。
语义粒度:在计算机视觉中,通用表示应该覆盖多种语义粒度。范式从抽象的标题转变为更详细的解释,为各种用途提供灵活的理解。
这一追求具有独特性和重大挑战性。一个关键障碍是需要更多的数据,这阻碍了捕捉空间层次和语义粒度的复杂细微差别的基础模型的发展。现有的数据集,如ImageNet、COCO和Flickr30k实体,专为特定应用而量身定制,都是由人类进行广泛的标注。为了克服这个限制,必须在更大的规模上为每个图像生成广泛的注释。另一个挑战是在计算机视觉中缺乏一种无缝整合空间层次和语义粒度的模型。传统模型通过特定任务的设计在语义分割、物体识别和图片字幕等任务中表现良好。然而,创建一个完整、连贯的模型,能够以任务无关的方式适应不同的视觉任务,甚至在没有或只有少量特定任务微调的情况下承担新任务,是至关重要的。
通过统一的预训练和网络设计,该模型开创了在计算机视觉中整合空间、时间和多模态特征的先河。第一个进化版本通过使用定制的适配器进行特定任务的微调,在噪声文本-图像配对的预训练中实现了迁移学习。然而,它依赖于大规模的特定任务数据集和适配器,在解决上述两个主要问题时存在差距。在这项工作中,Azure的研究人员提供了一个使用丰富的视觉注释来获得通用主干的方法。这种方法导致了针对各种视觉任务的基于提示的统一表示,成功解决了数据不完整和缺乏统一架构的问题。
大规模、高质量的注释数据对于多任务学习至关重要。为了不依赖耗时的人工标注,他们的数据引擎创建了一个名为\fld的广泛视觉数据集,其中包含126M张照片的5.4B个注释。该引擎中有两个有效的处理模块。第一个模块采用专门的模型共同自动注释照片,而不是传统的单一手动注释策略。类似于众包理论,许多模型合作达成共识,从而获得更客观、可靠的图片解释。使用已经学习的基本模型,第二个模块反复改进和过滤这些自动注释。
他们的模型采用了一个序列到序列(seq2seq)的架构,通过利用这个大数据集整合图像编码器和多模态编码器-解码器。这个架构支持多种视觉任务,无需任务特定的架构调整,与自然语言处理社区建立灵活模型的目标一致。数据集中的每个注释都被一致地标准化为文本输出。这使得可以使用相同的损失函数来进行一致的单一多任务学习策略的优化。结果是一个灵活的视觉基础模型,能够处理多种功能,包括目标识别、字幕和基于提示的定位,在统一的参数控制下。文本提示被用来激活任务,与大型语言模型(LLMs)采用的方法一致。
他们的方法实现了一种通用的表达方式,并在许多视觉任务中具有广泛的应用。关键发现包括:
- 该模型是一种灵活的视觉基础模型,能够在多项任务中提供新的零样本表现,包括在RefCOCO上的参考表达理解、在Flick30k上的视觉定位和在COCO上进行字幕生成。
- 尽管其规模较小,在使用公开可获得的人工标注数据进行微调后,它可以与更专业的模型竞争。尤其值得注意的是,改进后的模型在RefCOCO上设立了新的基准最新成绩。
- 预训练的骨干网络在下游任务中(如COCO物体检测和实例分割,ADE20K语义分割)胜过了监督和自监督模型。他们的模型使用了Mask-RCNN、DINO和UperNet框架,分别在COCO和ADE20K数据集上分别提高了6.9、5.5和5.9个点,并且使在ImageNet上预训练模型的训练效率提高了四倍。





