CMU研究人员发现神经网络行为的关键洞见:重尾数据和网络深度在塑造优化动力学方面的相互作用
CMU研究团队揭示神经网络行为的重要视角:重尾数据与网络深度在优化动力学塑造中的相互作用
神经网络(NN)优化具有令人着迷的特性,这些特性无法用优化的经典工具轻易解释。研究团队对于每个特性的机械原因有不同程度的理解,但迄今为止已经做出了可能解释Adam、批归一化和其他训练工具有效性的努力,然而证据只有时而完全令人信服,并且理论上的理解仍然很少。其他发现,如grocking或稳定边缘,并没有直接的实际应用意义,但它们为研究NN优化提供了新的研究方法。尽管这些现象通常是孤立考虑的,但它们并非完全不相干;无法确定它们可能共享的具体基本原因。对于特定背景下NN训练动态的更好理解可以带来算法改进,这表明任何共同点都将是进一步研究的有价值工具。
在这项研究中,卡内基梅隆大学的研究团队发现了神经网络优化中的一种现象,它提供了对许多先前观察的新视角,研究团队希望这将有助于更深入地理解它们之间可能的联系。虽然研究团队并未完全解释,但他们提供了强有力的定性和定量证据支持一个高层次的思想,它自然地融入了几个现有的叙述,并提出了一个更连贯的起源画面。具体而言,研究团队展示了自然数据中一对对离群值的普遍存在,它显著影响网络的优化动态。这些对包括一个或多个(相对较大幅度的)特征,它们在初始化和大部分训练过程中都主导网络的输出。除了幅度之外,这些特征的另一个独特属性是它们提供了大的、一致的和相反方向的梯度,也就是说,按照一组的梯度减少其损失将使另一组的损失以类似的程度增加。由于这种结构,研究团队将它们称为相对信号。这些特征与目标任务具有非平凡的相关性,但通常不是“正确”的(例如与人类对齐)信号。
在许多情况下,这些特征完美地概括了“相关性与因果关系”的经典统计困境。例如,明亮的蓝色天空背景并不决定CIFAR图像的标签,但它在飞机图像中最常出现。其他特征也是相关的,例如卡车和汽车图像中出现的车轮和前灯,或者写入文本中的换行符之前通常都有冒号。图1展示了通过在CIFAR-10上使用全批量梯度下降(GD)对ResNet-18进行训练的损失,以及一些主要离群值组和它们的损失。
- 这篇AI论文发布了对开源大规模语言模型的详细评价,这些模型声称在不同任务中赶超或超越了ChatGPT
- Perplexity 推出两个新的在线 LLM 模式:‘pplx-7b-online’ 和 ‘pplx-70b-online’
- 数据建模对于数据工程师来说
在训练的早期阶段,网络进入了权重空间中的一个狭窄山谷,该山谷仔细地平衡了这些对立梯度的对。损失景观的进一步调整导致网络沿着特定轴线的震荡幅度逐渐增大,破坏了这种平衡。回到他们关于天空背景的例子,在一个步骤中,对于所有带有天空的图像,类别“飞机”的概率会增加,而下一个步骤则将逆转这种效果。本质上,”天空=飞机”子网络会增长和缩小。这种振荡的直接结果是网络在具有天空背景的飞机图像上的损失将在增加和减少中交替出现,并且振幅逐渐增加,而非飞机的图像则正好相反。因此,这些组的梯度方向也将交替变化,并呈增大的幅度。由于这些对组代表数据的一小部分,从总体的训练损失中无法立即看出这种行为,但是最终会发展到足够远,以产生大范围的损失峰值。
由于这两个事件之间存在明显的直接对应关系,研究小组推测对立信号直接导致了稳定性边缘现象。研究小组还指出,最具影响力的信号在时间上似乎越来越复杂。研究小组在各种视觉架构和训练超参数上重复了这个实验:尽管精确的组别及其出现顺序会发生变化,但这个模式始终存在。研究小组还验证了这种行为对于自然文本的下一个令牌预测转换器和简单一维函数上的小型ReLU MLPs。然而,研究小组之所以使用图像来解释是因为它们提供了最清晰的直观理解。他们的大部分实验都使用GD来隔离这种效应,但研究小组在SGD期间观察到类似的模式-贡献摘要。本文的主要贡献是证明了在神经网络优化过程中对立信号的存在、普遍性和巨大影响。
研究小组进一步提出了他们对这些信号引起观察到的训练动态的当前最佳理解,并通过支持实验证据加以论证。特别是,研究小组提供了深度和最陡下降方法是这种现象的结果的证据。研究小组通过一个玩具示例和对简单模型上的两层线性网络的分析来补充这一讨论。值得注意的是,尽管简陋,他们的解释使得对训练中神经网络行为的具体定性预测成为可能,而这一点研究小组在实验中得到了确认。它还提供了一种新的视角来研究现代随机优化方法,研究小组通过SGD与Adam的案例研究将其突出显示。研究小组认为对立信号与各种神经网络优化和泛化现象,包括理解、弹射/弹射、简单性偏差、双下降和锐度感知最小化等,可能存在联系。