“为什么在人工智能领域中更多才是更多”
More is more in the field of artificial intelligence.
神经网络的泛化能力有多强大
少即是多。-路德维希·密斯·凡德罗当多已经太多时,少即是多。-弗兰克·劳埃德·赖特
深度神经网络(DNNs)深刻地改变了机器学习的格局,往往成为人工智能和机器学习的代名词。然而,它们的崛起是无法想象的,如果没有它们的犯罪伙伴:随机梯度下降(SGD)。
SGD连同它的派生优化器,构成了许多自学习算法的核心。在本质上,这个概念很简单:使用训练数据计算任务的损失,确定这个损失相对于参数的梯度,然后调整参数的方向以最小化损失。
听起来很简单,但在应用中,它被证明非常强大:SGD可以为各种复杂问题和训练数据找到解决方案,前提是它与足够表达力的架构结合使用。它特别擅长找到使网络在训练数据上表现完美的参数集,这被称为插值区间。但是神经网络在什么条件下被认为具有良好的泛化能力,即在未见过的测试数据上表现良好呢?
- 你是否应该使用槽(Slots)?槽对你的类有何影响,以及何时以及如何使用它们
- “以独家20%折扣庆祝Devart的26周年生日,享受数据连接工具!”
- 使用这本免费电子书学习数据科学中的数据清洗和预处理技术
在某种程度上,它几乎太强大了:SGD的能力不仅限于可以预期会导致良好泛化的训练数据。如在这篇有影响力的论文中已经展示,SGD可以使网络完美地记忆一组随机标记的图像(记忆和泛化之间存在深刻的关系,我之前写过)。尽管这可能看起来具有挑战性-因为标签和图像内容之间存在不匹配,但对于使用SGD训练的神经网络来说,这实际上是非常简单的。事实上,它并不比拟合真实数据更具挑战性。
这种能力表明,使用SGD训练的神经网络存在过拟合的风险,因此规范化过拟合的措施,如范数、提前停止和减小模型大小变得至关重要。
从经典统计学的角度来看,少即是多,所以多即是少,如下简洁总结…