“ConvNet是否卷土重来？揭示其在大规模Web数据集和匹配视觉转换器上的性能”

“ConvNet能否再次崛起？探究其在大规模Web数据集和匹配视觉转换器上的性能表现”

研究人员挑战了计算机视觉领域中的主流观点，认为当视觉转换器（ViTs）获得大规模网络数据集的访问权限时，它们优于卷积神经网络（ConvNets）。他们引入了一种名为NFNet的ConvNet架构，该架构在名为JFT-4B的大规模数据集上进行了预训练，该数据集包含来自30,000个类别的约40亿张带标签的图像。他们的目标是评估NFNet模型的扩展性能，并确定它们与具有类似计算预算的ViTs相比的表现如何。

近年来，ViTs广受欢迎，并且普遍认为它们在性能方面超越了ConvNets，尤其是在处理大规模数据集时。然而，这种信念缺乏实质性的证据，因为大多数研究都将ViTs与较弱的ConvNet基线进行了比较。此外，ViTs已经使用 significantly larger computational budgets 进行了预训练，这引发了这些架构之间实际性能差异的问题。

多年来，ConvNets，特别是ResNets，一直是计算机视觉任务的首选。然而，基于Transformer的ViTs的崛起导致了对性能评估方式的转变，重点放在大规模、基于Web的数据集上进行预训练模型。

研究人员介绍了一种名为NFNet的ConvNet架构，并在庞大的JFT-4B数据集上进行了预训练，遵循架构和训练过程，没有重大修改。他们研究了NFNet模型在不同计算预算下的性能缩放情况，包括从0.4k到110k TPU-v4核心计算小时。他们的目标是确定如果在类似的计算资源下，NFNet是否可以与ViTs在性能上相匹配。

研究团队对JFT-4B数据集上的不同深度和宽度的NFNet模型进行训练。他们在ImageNet上对这些预训练模型进行微调，并根据预训练期间使用的计算预算绘制其性能曲线。他们还观察到一个对数对数的缩放定律，即更大的计算预算会带来更好的性能。有趣的是，他们注意到最佳模型大小和时期预算是同时增加的。

研究人员发现，他们最昂贵的预训练NFNet模型，即NFNet-F7+，在预训练和微调过程中使用了110k TPU-v4核心小时和1.6k TPU-v4核心小时，实现了90.3%的ImageNet Top-1准确率。此外，通过在微调过程中引入重复数据增强，他们实现了惊人的90.4%的Top-1准确率。相比之下，通常需要更大的预训练预算的ViT模型实现了类似的性能。

总之，这项研究挑战了ViTs在类似计算预算下明显优于ConvNets的主流观点。他们证明了NFNet模型可以在ImageNet上获得竞争性结果，与ViTs的性能相匹配。该研究强调了计算和数据可用性对模型性能的关键因素。虽然ViTs具有其优点，但像NFNet这样的ConvNets仍然是强大的竞争者，尤其是在大规模训练时。这项工作鼓励公正和平衡地评估不同架构，考虑其性能和计算要求。

AI Shorts,Applications,Artificial intelligence,Computer vision,Editors Pick

按需打印和直运：将您对艺术的热情变现

生成型人工智能是否值得其环境足迹？’ (Shēngchéngxíng réngōng zhìnéng shìfǒu zhídé qí huánjìng zújì?)

如何使基于模型的基础保持最新数据？苹果和CMU...

硅谷：设计师借助生成式人工智能进行芯片辅助

“AI以意想不到的方式在以色列-哈马斯战争中使...

“人工智能治理中利益相关者分析综合指南（第一...

斯科特·史蒂文森，Spellbook共同创始人兼首席...

引介 MLOps 原则

人工智能

人工智能

探索人工智能的世界及AI的未来潜力

Web Analytics