如何使基于模型的基础保持最新数据?苹果和CMU的研究人员推出了第一个具有12.7B个时间戳图像-文本对的网络规模时间连续(TiC)基准,用于VLM的持续训练
如何实现基于模型的基础数据的时效性?苹果和CMU的研究人员推出了具有12.7B个时间戳图像-文本对的网络规模时间连续(TiC)基准,可用于持续训练VLM
“`html
大规模多模态基础模型如CLIP、Flamingo和Stable Diffusion的贡献引发了多模态学习的范式变革,使图像生成和零样本泛化的改进达到了以往难以想象的程度。这些基线模型通常是在大型、网络规模的静态数据集上进行训练的。关于OpenAI的CLIP模型等遗留模型是否能够处理未来的数据,目前还不得而知。
首先,来自苹果和卡内基梅隆大学的研究人员研究了OpenAI的CLIP模型与OpenCLIP资源库中使用更新的筛选网络数据集开发的模型在鲁棒性方面的差距。由于缺乏用于衡量CLIP模型的标准,他们编制了一组涵盖2014年至2022年的动态分类和检索任务。虽然OpenCLIP模型保持其性能,但研究团队发现,与2014年至2016年的数据相比,OpenAI模型在2021年至2022年的数据上的检索性能存在显著差异。尽管OpenAI的CLIP模型在某些方面比OpenCLIP模型更加鲁棒,但这在像ImageNet分布转变上的准确性等典型测试中并没有完全体现。
他们的工作揭示了使用静态基准(如ImageNet)存在局限性,模型需要与数据分布的变化相适应和演化。适应数据变化的一种简单但经常使用的方法是,每当获得一组新的图像文本数据并训练新的CLIP模型时重新开始。这种方法的理由是,当训练从一个已有模型开始时,更难使模型的行为适应新输入。然而,反复投入时间和精力从头开始训练新的基础模型是不现实的。
近期的工作主要集中在CLIP模型的持续学习技术,主要旨在提高单个下游任务或少数任务的效率。尽管最近的一些研究已经开始解决这些问题,但当前的基准要么范围太小,要么缺乏相关的图像文本数据,不是真正有用。
作为实现CLIP模型的时间连续(TIC)训练的第一步,研究人员观察了数据分布随时间的自然变化。通过在已有的CommonPool数据集中包含“爬行时间”数据,他们建立了TIC-DataComp作为CLIP模型的时间连续训练的新基准。研究人员还将从Reddit和Flickr等地收集的互联网大规模数据集重新利用,特别是使用YFCC和Redcaps提供的时间信息分别筛选出TIC-YFCC和TICRedCaps。每当有新的数据集可用时,这项工作旨在构建在有限计算预算内能够运行的连续学习技术。这些策略与Oracle(在接收到新数据时重置其训练参数,并将累积的计算预算用于全新的模型)相矛盾。
研究人员对使用TIC-CLIP框架训练的模型进行了零样本评估,评估包括28个经过验证的分类和检索任务,如ImageNet、ImageNet分布转变和Flickr。最后,他们使用自己的基准设计和测试了各种连续学习方法,包括回放缓冲区、学习率调整和其他类型的检查点(如热启动、修补和蒸馏)。
研究团队得出一个重要结论:通过从最新的检查点开始训练,并重播所有历史数据,累积技术能够以2.7倍的计算效率达到与Oracle相当的性能。他们还对顺序训练的学习率调度和静态和动态性能的缓冲区大小之间的有趣权衡进行了深入研究。他们的研究结果在各个维度和技术之间是一致的,从涵盖1100万个样本到30亿个样本的数据集中发现了趋势。他们即将公开发布所收集的代码和时间数据,以便更广泛的社区可以使用提出的基准。研究团队希望通过揭示这个尚未深入探索的主题,为基础模型的连续训练铺平道路。
“`