了解CapPa:DeepMind的创新图像字幕策略,正在改变视觉预训练并与CLIP在可扩展性和学习性能方面展开竞争
一篇最近的论文,名为“图像字幕生成器也是可扩展的视觉学习者”,提出了一种有趣的方法,称为CapPa,旨在将图像字幕生成作为视觉主干的竞争性预训练策略。这篇由DeepMind研究团队撰写的论文强调了CapPa与对比语言图像预训练(CLIP)的潜力相媲美,同时提供了简单性、可扩展性和高效性。
研究人员广泛比较了Cap,他们的图像字幕生成策略,以及广受欢迎的CLIP方法。他们仔细匹配了两种策略之间的预训练计算、模型容量和训练数据,以确保公平评估。研究人员发现,Cap视觉主干在几个任务中表现优于CLIP模型,包括少样本分类、字幕生成、光学字符识别(OCR)和视觉问答(VQA)。此外,当转移到具有大型标记训练数据的分类任务时,Cap视觉主干实现了与CLIP相当的性能,表明它们在多模态下游任务中具有潜在的优势。
为了进一步提高Cap的性能,研究人员引入了CapPa预训练过程,该过程将自回归预测(Cap)与并行预测(Pa)相结合。他们使用Vision Transformer(ViT)作为视觉编码器,利用其在图像理解方面的强大能力。为了预测图像字幕,研究人员采用了标准Transformer解码器架构,将交叉注意力结合到解码过程中,有效利用ViT编码的序列。
研究人员在训练阶段并不仅仅采用自回归方法训练模型,而是采用并行预测方法,即模型同时独立预测所有字幕标记。通过这样做,解码器可以大量依赖于图像信息来提高预测准确性,因为它可以同时访问完整的标记集。这种策略使解码器能够从图像提供的丰富视觉上下文中受益。
研究人员进行了一项研究,评估了CapPa与传统Cap以及最先进的CLIP方法在各种下游任务中的表现,包括图像分类、字幕生成、OCR和VQA。结果非常有希望,因为CapPa在几乎所有任务中都一直优于Cap。此外,与相同批量大小训练的CLIP *相比,CapPa实现了相当或更高的性能。此外,CapPa展示了强大的零样本能力,能够有效地推广到未见过的任务,并展现了扩展属性的潜力,表明其处理更大规模数据集和模型的潜力。
总的来说,本文提出的工作将图像字幕生成作为视觉主干的竞争性预训练策略。通过展示CapPa在各种下游任务中实现高质量结果的有效性,研究团队希望激发对字幕生成作为视觉编码器预训练任务进一步探索的兴趣。凭借其简单性、可扩展性和高效性,CapPa为推进基于视觉的模型和推动多模态学习的边界开辟了令人兴奋的可能性。