这篇AI文献介绍了EdgeSAM:推进边缘设备上高速高效的图像分割机器学习
图文并茂:EdgeSAM为边缘设备上的高速高效图像分割机器学习提供动力
Segment Anything Model(SAM)是一种基于人工智能的模型,用于图像的对象检测和识别的分割。它是各种计算机视觉任务的有效解决方案。但是,SAM并未针对边缘设备进行优化,这可能导致性能受限和资源消耗高。新加坡南洋理工大学S-Lab和上海人工智能实验室的研究人员开发了EdgeSAM来解决这个问题。这个优化版本的SAM旨在在资源受限的边缘设备上实现提升的性能而不牺牲准确性。
该研究专注于设计高效的卷积神经网络和变换器以进行视觉表示学习,这是以前的研究所探索的方向。它认识到以前的研究中在语义分割和对象检测等密集预测任务中应用知识蒸馏的重要性。相关工作包括Mobile-SAM,实施像素级特征蒸馏,以及Fast-SAM,训练基于YOLACT的实例分割模型。它强调了解决特定领域内高效分割的以前研究以及最近在移动平台上实现适用于设备的分割模型方面的努力。
该研究解决了在智能手机等边缘设备上部署计算要求高的SAM进行实时交互分割的挑战。引入了EdgeSAM,一种优化的SAM变种,在保持准确性的同时实现了边缘设备上的实时操作。EdgeSAM利用与SAM输出掩码对齐的提示感知知识蒸馏方法,并为掩码解码器引入了定制提示。借助适用于设备上的人工智能加速器的纯CNN骨干,EdgeSAM在实时边缘部署上的速度超过了Mobile-SAM,实现了原始SAM的显著加速。
EdgeSAM针对边缘设备上的高效执行进行了定制化,无需明显的性能妥协。EdgeSAM将原始基于ViT的SAM图像编码器蒸馏成适用于边缘设备的CNN架构。为了完全捕捉SAM的知识,研究中引入了Prompt编码器和掩码解码器蒸馏,其中循环中使用了框和点提示。还添加了一个轻量级模块来解决数据集偏差问题。评估包括通过消融研究来研究循环中的提示感知知识蒸馏以及轻量级区域提案网络对粒度先验的影响。
EdgeSAM相对于原始SAM实现了显著的40倍加速,边缘设备上超过了Mobile-SAM 14倍。它在各种提示组合和数据集中始终优于Mobile-SAM,展示了其在实际应用中的功效。EdgeSAM针对边缘部署进行了优化,使用NVIDIA 2080 Ti的速度比SAM快40倍,使用iPhone 14的速度比Mobile-SAM快约14倍。引入的提示感知知识蒸馏和轻量级区域提案网络显著提升了性能。
总结起来,以下是研究的主要亮点:
- EdgeSAM是SAM的优化变种。
- 它旨在实时部署在智能手机等边缘设备上。
- 与原始SAM相比,EdgeSAM快40倍。
- 在边缘设备上,它比Mobile-SAM快14倍。
- 它显著改善了COCO和LVIS数据集的mIoUs。
- EdgeSAM集成了动态提示感知循环策略和轻量级模块以解决数据集偏差问题。
- 该研究探索了各种训练配置、提示类型和冻结方法。
- 还引入了轻量级区域提案网络,利用粒度先验。