“ConvNet是否卷土重来?揭示其在大规模Web数据集和匹配视觉转换器上的性能”

“ConvNet能否再次崛起?探究其在大规模Web数据集和匹配视觉转换器上的性能表现”

研究人员挑战了计算机视觉领域中的主流观点,认为当视觉转换器(ViTs)获得大规模网络数据集的访问权限时,它们优于卷积神经网络(ConvNets)。他们引入了一种名为NFNet的ConvNet架构,该架构在名为JFT-4B的大规模数据集上进行了预训练,该数据集包含来自30,000个类别的约40亿张带标签的图像。他们的目标是评估NFNet模型的扩展性能,并确定它们与具有类似计算预算的ViTs相比的表现如何。

近年来,ViTs广受欢迎,并且普遍认为它们在性能方面超越了ConvNets,尤其是在处理大规模数据集时。然而,这种信念缺乏实质性的证据,因为大多数研究都将ViTs与较弱的ConvNet基线进行了比较。此外,ViTs已经使用 significantly larger computational budgets 进行了预训练,这引发了这些架构之间实际性能差异的问题。

多年来,ConvNets,特别是ResNets,一直是计算机视觉任务的首选。然而,基于Transformer的ViTs的崛起导致了对性能评估方式的转变,重点放在大规模、基于Web的数据集上进行预训练模型。

研究人员介绍了一种名为NFNet的ConvNet架构,并在庞大的JFT-4B数据集上进行了预训练,遵循架构和训练过程,没有重大修改。他们研究了NFNet模型在不同计算预算下的性能缩放情况,包括从0.4k到110k TPU-v4核心计算小时。他们的目标是确定如果在类似的计算资源下,NFNet是否可以与ViTs在性能上相匹配。

研究团队对JFT-4B数据集上的不同深度和宽度的NFNet模型进行训练。他们在ImageNet上对这些预训练模型进行微调,并根据预训练期间使用的计算预算绘制其性能曲线。他们还观察到一个对数对数的缩放定律,即更大的计算预算会带来更好的性能。有趣的是,他们注意到最佳模型大小和时期预算是同时增加的。

研究人员发现,他们最昂贵的预训练NFNet模型,即NFNet-F7+,在预训练和微调过程中使用了110k TPU-v4核心小时和1.6k TPU-v4核心小时,实现了90.3%的ImageNet Top-1准确率。此外,通过在微调过程中引入重复数据增强,他们实现了惊人的90.4%的Top-1准确率。相比之下,通常需要更大的预训练预算的ViT模型实现了类似的性能。

总之,这项研究挑战了ViTs在类似计算预算下明显优于ConvNets的主流观点。他们证明了NFNet模型可以在ImageNet上获得竞争性结果,与ViTs的性能相匹配。该研究强调了计算和数据可用性对模型性能的关键因素。虽然ViTs具有其优点,但像NFNet这样的ConvNets仍然是强大的竞争者,尤其是在大规模训练时。这项工作鼓励公正和平衡地评估不同架构,考虑其性能和计算要求。