这篇AI论文介绍了计算机视觉骨干网络的全面分析:揭示了预训练模型的优势和劣势
这篇AI论文全面解析了计算机视觉骨干网络:探秘预训练模型的优缺点


在计算机视觉中,骨干是许多深度学习模型的基本组件。分类、检测和分割等下游活动依赖于骨干提取的特征。近年来,新的预训练策略和骨干架构不断涌现。因此,从业者在选择适合特定活动和数据集的骨干时面临着挑战。
骨干之战(BoB)是一个新的大规模基准,比较了许多流行的公开可用预训练检查点和随机初始化基线在各种下游任务上的表现。纽约大学、约翰霍普金斯大学、马里兰大学、佐治亚理工学院、Inria和Meta AI Research的研究人员开发了它。BoB的研究结果揭示了各种骨干拓扑和预训练策略的相对优点。
研究发现了一些有趣的事情,包括:
- 预训练的有监督卷积网络通常比变压器表现更好。这很可能是因为有监督卷积网络更容易获得和在更大的数据集上进行训练。另一方面,自监督模型在同样大小的数据集上的结果比监督模型更好。
- 与CNN相比,ViTs对参数数量和预训练数据的数量更敏感。这表明训练ViTs可能需要更多的数据和处理能力。在选择骨干架构之前,准确度、计算成本和数据可用性之间的权衡应该被考虑在内。
- 任务性能之间的相关程度很高。最好的BoB骨干在各种情况下都表现得很好。
- 端到端微调对变压器的帮助要大于CNN在密集预测任务上的帮助。这表明变压器可能比CNN更依赖于任务和数据集。
- 使用CLIP模型和其他有前景的高级架构进行视觉语言建模。CLIP的预训练效果比普通视觉变压器要好,甚至比ImageNet-21k的有监督训练骨干要好。这些数据表明,在计算机视觉任务中,视觉语言的预训练可以提高结果。作者建议专业人士调查通过CLIP提供的预训练骨干。
BoB映射出了计算机视觉框架的最新技术水平。然而,这个领域是动态的,还在不断进步中,涌现着新的架构和预训练技术。因此,团队认为不断评估和比较新的基础架构,并找到提升性能的方法是至关重要的。



