谷歌DeepMind研究探索了神经网络中令人困惑的理解现象:揭示了记忆和泛化之间的相互作用
谷歌DeepMind研究揭示了神经网络中记忆和泛化的相互作用
神经网络学习和泛化的传统理论受到了神经网络中的理解现象的考验。当神经网络被训练时,期望是随着训练损失降低并收敛到一个较低的值,网络在测试数据上的性能也会随之提高,但最终网络的行为会稳定下来。虽然网络一开始似乎是在记忆训练数据,但理解现象会导致训练损失持续低且稳定,但泛化能力较差。令人惊讶的是,通过更多的训练,网络能够演化到完美的泛化。
因此,一个问题出现了:即使在获得几乎完美的训练性能之后,为什么网络的测试性能在进一步训练后会显著提高?网络首先实现了完美的训练准确性,但显示出较差的泛化能力,然后通过更多的训练,它转变为完美的泛化。这种行为基本上就是神经网络中的理解现象。在最近的一篇研究论文中,一组研究人员提出了基于网络试图学习的任务中存在两种解决方案的共存来解释理解现象的解释。这两种解决方案如下:
- 泛化解决方案:采用这种方法,神经网络非常适合对新数据进行泛化。在参数规范相同的情况下,即网络参数的大小,它可以产生更大的逻辑输出值,其特点是学习速度较慢但效率更高。
- 记忆解决方案:在这种方法中,网络记忆训练数据,从而导致完美的训练准确性,但泛化能力不强。记忆电路能够快速接收新信息,但它们不够有效,因为它们需要更多的输入来产生相同的逻辑值。
研究团队分享了记忆电路在训练数据集大小增加时变得不太有效,但泛化电路基本上不受影响。这意味着存在一个关键的数据集大小,即同时泛化和记忆电路都同样有效的大小。团队验证了以下四个创新假设,并提供了强有力的证据来支持他们的解释:
- 见到NExT-GPT:一种端到端的通用任意多模态大型语言模型(MM-LLMs)
- 赫瑞瓦特大学和Alana AI的研究人员提出了FurChat:一种基于大型语言模型的新型具有实体交互功能的对话代理系统
- 如何引导ChatGPT以为您的网站撰写高质量的技术文本
- 作者预测并证明了当网络从一开始的记忆输入逐渐强调泛化时,理解现象发生。由于这种变化,测试准确性增加。
- 他们提出了关键数据集大小的概念,即记忆和泛化电路都同样有效的关键大小。这个关键大小在学习过程中代表了一个重要阶段。
- 非理解现象:最意外的发现之一就是出现了“非理解现象”。如果网络在成功掌握后进一步在明显小于关键数据集大小的数据集上进行训练,它会从完美的测试准确性回归到较低的准确性。
- 半理解现象:研究引入了半理解现象,即在经过在一个平衡了记忆和泛化电路有效性的数据集大小上训练后,网络经历了一个相变阶段,但只达到了部分而不是完美的测试准确性。这种行为展示了神经网络中各种学习机制之间的微妙相互作用。
总之,这项研究对理解理解现象提供了详尽而独特的解释。它表明影响网络在训练过程中行为的一个关键因素是记忆和泛化解决方案的共存以及这些解决方案的有效性。因此,通过提供预测和实证数据,可以更好地理解神经网络的泛化和其动态性。