基准测试下一代无止境学习者

Next Generation Endless Learner under Benchmark Testing.

通过利用30年的计算机视觉研究来学习如何建立知识

在短短几年内,大规模的深度学习(DL)模型在各个领域取得了前所未有的成功,从预测蛋白质结构到自然语言处理和视觉领域 [1, 2, 3]。机器学习工程师和研究人员主要依靠强大的新硬件来实现这些成功,这使得他们的模型能够扩展并使用更多的数据进行训练。

扩展带来了出色的能力,但也意味着DL模型可能需要大量的资源。例如,当部署大型模型时,它们在一个任务上学到的知识很少被用于促进其学习下一个任务。此外,一旦有新的数据或更多的计算资源可用,大型模型通常需要从头开始重新训练,这是一种昂贵且耗时的过程。

这引发了一个问题,就是我们是否可以改进这些大型模型在效率和性能之间的权衡,使它们更快、更可持续,同时保留其出色的能力。其中一个答案是鼓励开发能够随时间积累知识的模型,从而更有效地适应新情况和新任务。

引入NEVIS’22

我们的新论文《NEVIS’22: 从30年的计算机视觉研究中抽取的100个任务流》提出了一个在受控和可重复的环境中研究高效知识传递问题的平台。Never-Ending Visual Classification Stream(NEVIS’22)是一个基准流,除了提供评估协议、一组初始基准线和开源代码库外,还提供了一个机会供研究人员探索模型如何持续建立知识以更高效地学习未来的任务。

NEVIS’22实际上由从过去三十年的计算机视觉会议在线论文集中随机抽取的106个任务组成。每个任务都是一个监督分类任务,这是机器学习中最为了解的方法。而且关键的是,这些任务按时间顺序排列,因此变得更具挑战性和广泛性,提供了从不断增长的相关任务集合中转移知识的机会。挑战在于如何自动地从一个任务中传递有用的知识到下一个任务,以实现更好或更高效的性能。

以下是我们论文附录H中引用的数据集衍生的一些图像:

NEVIS’22是可重复的,并且具有足够的规模来测试最先进的学习算法。该流包含了各种各样的任务,从光学字符识别和纹理分析到人群计数和场景识别。任务选择过程是随机抽样的,没有偏向任何特定的方法,而只是反映了计算机视觉社区随时间认为有趣的内容。

NEVIS’22不仅关注数据,还关注用于训练和评估学习模型的方法论。我们根据学习模型在学习未来任务方面的能力来评估学习者,这由误差率和计算资源(通过浮点运算数量来衡量)之间的权衡来衡量。因此,例如,在NEVIS’22中实现更低的错误率是不够的,如果这是以不合理的计算成本为代价的话。相反,我们鼓励模型既准确又高效。

初步经验和开放性挑战

我们的初步实验表明,能够实现更好权衡的模型是那些利用任务间共享的结构并采用某种形式的迁移学习的模型。特别是,巧妙的微调方法即使与大型预训练模型结合使用,也可以相当有竞争力。这一发现突显了进一步改进大规模模型的通用表示的可能性,开辟了全新的研究领域。我们相信,NEVIS’22为我们的社区提供了一个激动人心的新挑战,我们将努力开发更高效、更有效的不断学习模型。

了解更多关于NEVIS’22的内容,请阅读我们的论文并下载我们的代码。