这项人工智能研究解决了在持续学习环境中使用深度学习系统时出现的“可塑性丧失”问题

This AI research addresses the issue of plasticity loss that arises when using deep learning systems in a continuous learning environment.

现代深度学习算法现在专注于训练仅在大量数据集上进行一次,而不再进行其他训练的问题环境,早期深度学习在语音识别和图片分类等方面的所有胜利都采用了这样的一次性训练设置。当应用于强化学习时,深度理解后来添加了回放缓冲区和批处理,使其非常接近一次性训练设置。最近的深度学习系统如GPT-3和DallE也使用了大量数据批次进行训练。在这些情况下,最流行的方法是持续收集数据,然后偶尔以训练配置从头开始准备一个新网络。当然,在许多应用中,数据分布会随时间变化,训练必须以某种方式继续进行。现代深度学习技术是在考虑一次性训练设置的前提下开发的。

相比之下,连续学习问题设置侧重于不断从新鲜数据中学习。持续学习选项非常适合需要学习系统处理动态数据流的问题。例如,想象一下一个必须在房子里找到路的机器人。如果使用一次性训练设置,机器人每次房子的布局发生变化时都必须从头重新训练或面临变得无用的危险。如果布局经常变化,就需要从头重新训练。另一方面,机器人可以轻松地从新信息中学习,并在持续学习的情况下不断适应房子中的变化。近年来,终身学习的重要性不断增长,举办了更多专门的会议来解决这个问题,如终身学习代理人会议(CoLLAS)。

他们在他们的论文中强调了持续学习环境。当暴露于新鲜数据时,深度学习系统经常丢失其先前学到的大部分内容,这种情况被称为“灾难性遗忘”。换句话说,深度学习技术在持续学习问题中无法保持稳定。在20世纪后期,早期的神经网络首次展示了这种行为。由于深度学习的发展,灾难性遗忘最近引起了新的关注,许多文章写到了如何在深度连续学习中保持稳定。

从新鲜材料中继续学习的能力与灾难性遗忘不同,对于连续学习来说更为重要。他们称这种能力为“可塑性”。连续学习系统必须保持可塑性,因为它使它们能够适应数据流的变化。如果它们的数据流发生变化,失去灵活性的持续学习系统可能会变得毫无价值。他们在他们的论文中强调了灵活性损失的问题。这些研究使用了这样的配置:网络首先展示了一组实例,持续了一定数量的时期,然后训练集以新的示例扩大,再次进行一定数量的时期的训练。在考虑时期数量后,他们发现初始训练集中的案例错误率低于后来添加的案例。这些出版物提供了证据,证明了由深度学习和其基于的反向传播算法引起的灵活性损失是一种常见现象。

当提供新任务时,网络在其配置中增加了称为“头”的新输出,并且随着遇到更多任务,输出的数量也增加。因此,来自旧头部的干扰效果与灵活性损失的结果混在一起。根据Chaudhry等人的研究,当在新任务开始时去除旧头部时,可塑性的损失是适度的,这表明他们观察到的可塑性损失的主要原因是来自旧头部的干扰。之前的研究只使用了10个挑战,这使得他们无法测量当深度学习技术面对一系列任务时发生的可塑性损失。

尽管这些出版物中的发现表明深度学习系统失去了一些重要的适应性,但还没有人证明连续学习失去了可塑性。在强化学习领域,最近的研究已经证明了现代深度学习中可塑性的显著损失,这方面有更多的证据。通过证明在强化学习问题中的早期学习可能对后期学习产生负面影响,Nishikin等人提出了“优先偏差”这个术语。

由于策略的变化,强化学习本质上是连续的,所以在学习持续进行的情况下,这个结果可能归因于深度学习网络在失去灵活性的情况下。此外,Lyle等人证明,一些深度强化学习代理最终可能失去学习新技能的能力。这些都是重要的数据点,但由于现代深度强化学习的复杂性,很难得出任何确定性的结论。这些研究表明深度学习系统失去了灵活性,但并没有对这一现象提供完整的解释。这些研究包括了20世纪末的心理学文献以及机器学习和强化学习领域的更现代的研究。在这项研究中,来自阿尔伯塔大学计算科学系和CIFAR人工智能讲席的研究人员提供了对现代深度学习中可塑性损失的更具决定性的回答。

他们证明了持续的监督学习问题会导致深度学习方法失去可塑性,并且这种可塑性的丧失可能非常严重。在使用ImageNet数据集和数百个学习试验的连续监督学习问题中,他们首先展示了深度学习的可塑性损失。当使用监督学习任务代替强化学习任务时,总是会出现的复杂性和相关混淆问题会被消除。由于我们拥有数百个任务,我们还可以确定可塑性损失的完整程度。接下来,他们通过使用两个计算成本较低的问题(MNIST的变体和缓慢变化的回归问题)证明了深度学习在各种超参数、优化器、网络大小和激活函数上缺乏灵活性的普适性。在展示了深度学习的灵活性损失的严重性和普适性之后,他们希望更深入地了解其起源。