这篇AI论文介绍了RMT:RetNet和Transformer的融合,开创了计算机视觉效率和准确性的新时代
RMT:RetNet和Transformer的融合:开拓计算机视觉效率与准确性的新纪元——一篇介绍AI论文
在自然语言处理(NLP)领域首次亮相后,Transformer被转移到计算机视觉领域,并取得了显著的效果。与此不同的是,最近NLP界对Retentive Network(RetNet)产生了浓厚的兴趣,这种设计有可能取代Transformer。中国研究人员对将RetNet概念应用于视觉领域是否会取得同样令人印象深刻的性能提升提出了质疑。为了解决这个问题,他们提出了RMT,这是RetNet和Transformer的混合体。受到RetNet的影响,RMT在视觉骨干中添加了明确的衰减,使视觉模型能够利用先前获得的关于空间距离的知识。这种与距离相关的空间先验能够精确调节每个标记的感知带宽。他们还沿着图像的两个坐标轴对建模过程进行了分解,有助于降低全局建模的计算成本。
广泛的实验表明,RMT在各种计算机视觉任务中表现出色。例如,在ImageNet-1k上,仅需4.5G FLOPS,RMT就取得了84.1%的Top1-acc。当模型大小和训练技术大致相同时,RMT始终产生最高的Top1-acc。在目标检测、实例分割和语义分割等下游任务中,RMT远远优于现有的视觉骨干。
广泛的实验证明了所提出策略的有效性,研究人员支持他们的观点。RMT在图像分类任务上的表现要比最先进的模型更好。该模型在各种任务中都优于竞争模型,包括目标检测和实例分割。
- 清华大学研究人员推出OpenChat:一种新型的人工智能AI框架,通过混合质量数据增强开源语言模型
- 这篇来自微软的AI论文介绍了一种新的训练语言模型的方法:模仿人类阅读理解,提高生物医学、金融和法律领域的性能表现
- 通过生成式人工智能掌握情感分析
以下是做出贡献的内容:
- 研究人员在视觉模型中引入了有关距离的空间先验知识,将Retentive Network的关键过程,记忆保留,引入到二维环境中。改进记忆保留机制的名字为Retentive SelfAttention(ReSA)。
- 为了简化计算,研究人员沿两个图像轴分解了ReSA。这种分解策略有效地减少了所需的计算工作量,对模型的效率影响可以忽略不计。
- 广泛的测试证明了RMT的卓越性能。RMT在目标检测和实例分割等下游任务中表现尤为出色。
简而言之,研究人员建议使用RMT,一种将记忆保留网络和Vision Transformer结合的视觉骨干。借助RMT,空间先验知识以与距离相关的明确衰减的形式引入了视觉模型中。缩写词ReSA描述了改进的记忆保留过程。RMT还使用将ReSA分解为两个轴的技术来简化模型。广泛的实验证实了RMT的效率,特别是在目标检测等下游任务中,RMT显示出明显的优势。