Meta AI呈现EfficientSAM SAM的小弟,参数减少20倍,运行时间提速20倍
Meta AI展示EfficientSAM SAM的新版本,参数减少20倍,运行时间提速20倍
在视觉领域中,Segment Anything Model(SAM)在许多图像分割任务中取得了显著的成功,包括零样本对象提案生成、零样本实例分割和边缘检测等实际应用。
SA-1B视觉数据集包含了来自1100万张照片的超过10亿个掩码,是SAM的Vision Transformer(ViT)模型的基础。这使得在给定图像中对任何物品进行分割成为可能。由于其任意物体分割的能力,SAM不仅是视觉领域的基础模型,而且其用途也扩展到了视觉以外的领域。
尽管具有这些优点,但SAM模型的成本仍然相对较高,特别是图像编码器(如ViT-H),这使得SAM模型在效率方面的实际应用受到了阻碍。
- 这篇由香港大学和阿里巴巴集团的人工智能研究揭示的“活照片”:文本控制的视频动画和运动强度定制的一个飞跃
- 这项人工智能研究揭示出 Alpha-CLIP:通过有针对性的注意力和增强控制提升多模态图像分析
- 总部位于巴黎的初创公司Mistral AI被估值为20亿美元,是OpenAI的竞争对手
针对这一困难,最近的几篇论文提出了解决方案,以减轻使用SAM进行基于提示的实例分割的财务负担。
例如,一个小的ViT图像编码器可以从默认的ViT-H图片编码器的专业知识中获益,根据以前的研究,而实时的基于CNN的设计可以降低Segment Anything活动的计算成本。在这里,建议使用经过训练的轻量级ViT图像编码器,如ViT-Tiny/-Small,来简化SAM而不降低性能。
一项新的Meta AI研究通过使用我们的技术SAM-leveraged masked image pertaining(SAMI),为每个任务创建了预训练的轻量级ViT骨干网络。为此,研究人员利用SAM模型使用著名的MAE预训练方法建立了高质量的预训练ViT编码器。
更具体地说,所提出的SAMI使用轻量级编码器训练了一个带有掩码图像的模型,以重构来自SAM的ViT-H的特征,而不是图像块,并使用SAM编码器ViT-H提供特征嵌入。这样就可以生成通用的ViT骨干网络,可以用于后续的操作,如图片分类、物体识别和分割。然后,使用SAM解码器对预训练的轻量级编码器进行细调以进行分割和其他任务。
团队还提供了EfficientSAMs,这是具有现实世界实施的高品质和效率折衷的轻量级SAM模型。
团队使用重建损失在ImageNet上对模型进行了预训练,使用224×224的图像分辨率,然后使用有监督的数据对目标任务进行了微调,以在迁移学习环境中评估其策略以进行掩码图像预训练。SAMI可以学习到具有普遍性的轻量级编码器。使用SAMI预训练在ImageNet-1K上训练的模型在泛化性能方面表现更好,如ViT-Tiny/-Small/-Base。在用ImageNet-1K进行了100个周期的微调后,对于一个ViT-Small模型,它实现了82.7%的top-1准确率,比其他最先进的图像预训练基线更好。团队还进一步优化了它们的预训练模型在目标检测、实例分割和语义分割等领域。
与现有的预训练基线相比,他们的策略在这些任务上表现更好。而且,即使对于小模型,他们也看到了显著的改进。此外,Segment Anything挑战被用来评估我们的模型,在COCO/LVIS上,其在零样本实例分割上超过了FastSAM和当前的轻量级SAM算法,AP分别提高了4.1和5.2。