学习机器学习的勇气:揭秘L1和L2正则化(第一部分)

学习机器学习的勇气:探索L1和L2正则化的秘密(第一部分)

理解L1和L2正则化的基本目的

来自Holly Mandarich在Unsplash上的照片

欢迎来到“勇于学习机器学习”,我们将从探索L1和L2正则化开始。本系列旨在简化复杂的机器学习概念,以轻松和信息丰富的对话形式呈现,与“勇于被讨厌”一书中的吸引人风格相似,但侧重于机器学习。

这些问答环节反映了我自己的学习路径,我很高兴与您分享。把它看作是一篇记录我踏入机器学习深渊之旅的博客。您的互动 – 点赞、评论和关注 – 不仅仅是支持,也是这个系列和我的分享过程继续下去的动力。

今天的讨论超越了简单地回顾L1和L2正则化的公式和性质。我们要深入探讨为什么机器学习中使用这些方法的核心原因。如果您真正想理解这些概念,那您来对地方了,将收获一些启发性的见解!

在本文中,我们将回答以下问题:

  • 什么是正则化?为什么我们需要它?
  • 什么是L1、L2正则化?
  • 为什么我们更倾向于较小的系数而不是较大的系数?大系数如何等同于增加的模型复杂性?
  • 为什么神经网络中存在多种权重和偏置的组合?
  • 为什么L1和L2正则化不对偏置项进行惩罚?

什么是正则化?为什么我们需要它?

正则化是机器学习中的基本技术,旨在防止模型过拟合。过拟合发生在模型过于复杂时,它不仅从训练数据中学习潜在模式(信号),而且还捕捉并放大噪声。结果是模型在训练数据上表现良好,但在未见数据上表现不佳。

什么是L1、L2正则化?

有多种方法可以防止过拟合。L1、L2正则化主要通过在模型损失函数中添加一项惩罚项来解决过拟合问题。这个惩罚项阻止模型过分重视任何单个特征(通过较大的系数表示),从而简化模型。本质上,正则化使模型保持平衡,专注于真实信号,增强其泛化到未知数据的能力。

等等,为什么我们要对模型中的大权重施加惩罚?大系数如何等同于增加的模型复杂性?

虽然有许多组合可以最小化损失函数,但并非所有组合在泛化方面都同样好。大系数往往会放大数据中有用信息(信号)和不希望的噪声。这种放大使模型对输入的微小变化敏感,导致过度强调噪声。因此,它不能在新的未见数据上表现良好。

另一方面,较小的系数可以帮助模型集中于数据中更重要、更广泛的模式,减小对细微波动的敏感性。这种方法促进更好的平衡,使模型更有效地进行泛化。

考虑这样一个例子,一个神经网络被训练来预测猫的体重。如果一个模型的系数为10,另一个则远远大于1000,它们在下一层的输出将会大不相同 – 分别为300和30000。系数更大的模型更容易做出极端的预测。在30磅是异常值的情况下(对于猫来说相当不寻常!),系数更大的第二个模型会产生显著不准确的结果。这个例子说明了调节系数的重要性,以避免对数据中的异常值做出夸张的响应。

你能详细说明为什么神经网络中存在多种权重和偏差的组合吗?

想像一下在神经网络的损失函数中导航复杂的地形,在那里你的任务是找到最低点或“极小值”。以下是你可能会遇到的情况:

Tamas Tuzes-Katai在Unsplash上的照片
  • 多个目的地的地貌:当你穿越这个地貌时,你会注意到它充满了各种局部极小值,就像一个非凸地形,有许多低谷和山谷。这是因为具有多个隐藏层的神经网络的损失函数本质上是非凸的。每个局部极小值代表着不同的权重和偏差组合,提供了多种潜在的解决方案。
  • 同一目的地的不同路线:网络的非线性激活函数使其能够形成复杂的模式,逼近数据的真实底层函数。通过几层这些函数,有很多种方式来表示同一真理,每种方式都由不同的权重和偏差集合来描述。这就是网络设计中的冗余。
  • 序列的灵活性:想象一下改变你的旅程顺序,比如交换骑自行车和乘坐公交的顺序,然后仍然到达同一个目的地。将此与具有两个隐藏层的神经网络相关联:如果你将第一层的权重和偏差翻倍,然后将第二层的权重和偏差减半,最终输出保持不变。(请注意,这种灵活性主要适用于具有一些线性特征的激活函数,如ReLU,但不适用于其他函数,如sigmoid或tanh)。这种现象在神经网络中被称为“尺度对称性”。

我一直在阅读关于L1和L2正则化的内容,并观察到惩罚项主要集中在权重而不是偏差上。但为什么是这样?偏差不也是可以被惩罚的系数吗?

来源 - http://laid.delanover.com/difference-between-l1-and-l2-regularization-implementation-and-visualization-in-tensorflow/

简而言之,L1和L2等正则化技术的主要目标是通过调节模型的权重大小(在我个人看来,这就是我们称之为正则化的原因)来主要防止过拟合。相反,偏差对模型的复杂性影响相对较小,通常不需要对它们进行惩罚。

为了更好地理解,让我们看看权重和偏差的作用。权重决定模型中每个特征的重要性,影响其复杂性和决策边界在高维空间中的形状。将它们视为调整模型在高维空间中决策过程形状的旋钮,影响模型变得多么复杂。

然而,偏差具有不同的作用。它们像是线性函数中的截距,独立于输入特征调整模型的输出。

这是关键要点:过拟合主要是由特征之间的复杂相互作用引起的,而这些相互作用主要是由权重处理的。为了解决这个问题,我们对权重应用惩罚,调整每个特征的重要性和模型从中提取的信息量。这反过来重塑了模型的地貌,以及其复杂性。

与此相反,偏差对模型的复杂性没有显著贡献。此外,它们可以根据权重的变化进行调整,减少了对单独偏差惩罚的需求。

现在,您已经对存在多组权重和偏差以及对较小权重的偏好有了深入了解,我们准备深入探讨。

请加入我查看系列的第二部分,我将通过拉格朗日乘数为您解释L1和L2正则化背后的层次,带给您直观的理解(不用担心名字,这是一个直接的概念 😃)

到时见!

如果您喜欢这篇文章,您可以在领英上找到我,请随时联系并提出您的问题和建议!