遇见FastSAM:具有最小计算负载的突破性实时解决方案,实现高性能分割
分割任何物体模型(Segment Anything Model,SAM)是该领域的一个较新提议。这是一个被誉为突破的视觉基础概念。它可以使用多个可能的用户参与提示来准确地分割图像中的任何物体。使用在SA-1B数据集上进行了广泛训练的Transformer模型,SAM可以轻松处理各种情况和物体。换句话说,多亏了SAM,现在可以分割任何物体了。由于其普适性,这项任务有潜力成为各种未来视觉挑战的基础。
尽管SAM及其后续模型在处理分割任何物体任务方面取得了显著改进和有希望的结果,但其实际实施仍需要改进。SAM架构的主要挑战是Transformer(ViT)模型与其卷积模拟之间的高处理要求。商业应用的增加需求激发了中国的研究团队创建了一个实时解决分割任何问题的方法,研究人员称之为FastSAM。
为了解决这个问题,研究人员将分割任何任务分为两个部分:全实例分割和提示引导选择。第一步依赖于使用基于卷积神经网络(CNN)的检测器。生成图像中每个实例的分割掩码。然后,第二阶段显示输入的匹配感兴趣区域。他们表明,使用卷积神经网络(CNN)的计算效率,可以实现任意数据段的实时模型。他们还相信,我们的方法可以为商业环境中基本分割过程的广泛使用铺平道路。
使用YOLACT方法,YOLOv8-seg是我们提出的FastSAM的基础对象检测器。研究人员还使用了SAM的全面SA-1B数据集。尽管仅使用SA-1B数据集的2%(1/50)进行直接训练,这个CNN检测器在性能上与SAM相当,从而实现了实时应用,尽管计算和资源限制大大降低。他们还通过将其应用于各种下游分割任务来展示其广义性能。
实时的任意物体分割模型在工业中具有实际应用。它有广泛的可能用途。所提出的方法不仅提供了对各种视觉任务的新颖可实施的答案,而且速度非常快,通常比传统方法快几十倍或几百倍。它为解决通用视觉问题的大型模型架构提供了新的视角。我们的研究表明,仍然存在一些情况,专门的模型提供了最佳的效率-准确性平衡。然后,我们的方法证明了通过在结构之前插入一个人工物体可以大大减少运行模型所需的计算成本的可行性。
团队总结了他们的主要贡献如下:
- 通过引入一种革命性的实时基于CNN的方法,极大地降低了处理要求,而不牺牲性能,从而解决了分割任何挑战。
- 本文展示了轻量级CNN模型在复杂视觉任务中的潜力,包括首次将CNN检测器应用于分割任何挑战的研究。
- 通过与SAM在各种基准测试中进行比较,揭示了所提方法在分割任何领域的优点和缺点。
总体而言,提出的FastSAM与SAM的性能相匹配,但执行速度分别快50倍和170倍。它的快速性能可能有益于工业应用,例如道路障碍识别、视频实例跟踪和图片编辑。FastSAM可以为某些照片中的巨大物体生成更高质量的掩码。建议的FastSAM可以通过从分割图像中选择弹性和高效的感兴趣对象来实现实时分割操作。他们进行了实证研究,将FastSAM与SAM在四个零样本任务上进行了比较:边缘识别、提案生成、实例分割和基于文本提示的定位。结果显示,FastSAM在运行时间上比SAM-ViT-H快50倍,并且可以高效地处理许多实时下游任务。