麻省理工学院的研究人员引入了一种新颖的轻量级多尺度关注机制,用于设备端的语义分割
MIT researchers introduced a novel lightweight multiscale attention mechanism for semantic segmentation on the device side.


语义分割是计算机视觉中的一个基本问题,其目标是为输入图像中的每个像素分类为某个类别。自动驾驶、医学图像处理、计算摄影等领域都是语义分割能够发挥作用的现实世界背景的例子。因此,安装最先进的语义分割模型在边缘设备上以满足各种消费者的需求非常高。然而,最先进的语义分割模型对处理要求较高,边缘设备无法满足,这使得这些模型无法在边缘设备上使用。特别是语义分割是一种密集预测任务的示例,需要高分辨率图像和强大的上下文信息提取能力。因此,将用于图像分类的有效模型架构转移到语义分割上是不合适的。
当被要求对高分辨率图像中的数百万个单独像素进行分类时,机器学习模型面临着巨大的挑战。最近,一种名为视觉变换器的新型模型被广泛应用。
变换器最初的目的是改进自然语言处理的效率。在这种情况下,它们将句子中的单词进行分词,并创建一个显示这些单词之间连接方式的网络图。注意力图提高了模型理解上下文的能力。
- 谷歌DeepMind研究探索了神经网络中令人困惑的理解现象:揭示了记忆和泛化之间的相互作用
- 见到NExT-GPT:一种端到端的通用任意多模态大型语言模型(MM-LLMs)
- 赫瑞瓦特大学和Alana AI的研究人员提出了FurChat:一种基于大型语言模型的新型具有实体交互功能的对话代理系统
为了生成注意力图,视觉变换器采用相同的思路,将图像切分为小块像素,并将每个小块编码为一个标记。该模型使用学习每对像素之间的直接交互的相似性函数来生成这个注意力图。通过这样做,模型创建了一个”全局感受野”,使其能够感知图像中的所有重要细节。
由于高分辨率图像可能包含数百万个像素,分成数千个小块,因此生成注意力图所需的计算量会迅速增长。结果,随着分辨率的增加,处理图像所需的计算量以二次速率增长。
麻省理工学院的团队将非线性相似性函数替换为线性函数,以简化构建注意力图的方法,并在他们的新模型系列EfficientViT中进行了实现。因此,可以改变操作的顺序,以减少所需的计算次数,而不会影响功能或全局感受野。通过这种方法,预测所需的处理时间与输入图像的像素数量成线性比例增加。
EfficientViT系列的新模型在设备上进行本地语义分割。EfficientViT围绕一种新颖的轻量级多尺度注意力模块构建,以实现硬件高效的全局感受野和多尺度学习。该组件受到了以前的最先进语义分割模型的启发。
该模块旨在提供这两个重要功能的访问,并尽量减少对低效硬件操作的需求。具体而言,我们建议将低效的自注意力替换为基于ReLU的轻量级全局注意力,以实现国际感受野。基于ReLU的全局注意力的计算复杂度可以从二次降低到线性,同时保持功能,通过利用矩阵乘法的结合性质。由于它不使用像softmax这样的硬件密集型算法,因此更适用于设备上的语义分割。
EfficientViT在Cityscapes和ADE20K等流行的语义分割基准数据集上进行了深入评估。与先前的最先进语义分割模型相比,EfficientViT提供了显著的性能改进。
以下是该研究的贡献摘要:
- 研究人员开发了一种革命性的轻量级多尺度注意力,可以在设备上进行本地语义分割。在实现全局感受野和多尺度学习的同时,在边缘设备上表现良好。
- 研究人员基于提出的轻量级多尺度注意力模块开发了一系列名为EfficientViT的新模型。
- 该模型在移动设备上显示出比以前的最先进语义分割模型在知名语义分割基准数据集ImageNet上的显著加速。
总之,麻省理工学院的研究人员引入了一种轻量级多尺度注意力模块,通过轻量级和高效的操作实现了全局感受野和多尺度学习,在边缘设备上提供了显著的加速,而不会损失与最先进语义分割模型相比的性能。EfficientViT模型将进一步扩展,并将在进一步的研究中探索其在其他视觉任务中的潜力。




