勇於學習機器學習:揭開L1和L2正則化(第二部分)
機器學習中的勇者:深入了解L1和L2正則化(第二部分)
揭开L1稀疏性与拉格朗日乘数背后的直觉
欢迎回来参加《勇往直前学习机器学习:揭开L1和L2正则化》系列的第二部分。在我们之前的讨论中,我们探索了较小系数的好处以及通过权重惩罚技术获得它们的方法。现在,在这个后续部分中,我们的导师和学习者将更深入地探索L1和L2正则化的领域。
如果你一直在考虑如下问题,那你来对了地方:
- L1和L2正则化的名称背后的原因是什么?
- 我们如何解释经典的L1和L2正则化图形?
- 拉格朗日乘数是什么,我们如何直观地理解它们?
- 应用拉格朗日乘数来理解L1稀疏性。
你的参与-点赞、评论和关注-不仅仅会提升士气,还会推动我们的探索之旅!所以,让我们开始吧。
为什么称之为L1和L2正则化?
L1和L2正则化的名称直接来源于Lp范数的概念。Lp范数代表计算空间中点到原点的距离的不同方法。例如,L1范数,也称为曼哈顿距离,使用坐标的绝对值来计算距离,如∣x∣+∣y∣。另一方面,L2范数或欧几里德距离,将其计算为平方值之和的平方根,即sqrt(x² + y²)。
在机器学习的正则化背景下,这些范数用于创建添加到损失函数中的惩罚项。你可以将Lp正则化看作是衡量模型权重在高维空间中与原点之间的总距离。范数的选择影响这种惩罚的性质:L1范数倾向于将一些系数变为零,从而选择更重要的特征,而L2范数将系数收缩到零,确保没有单个特征对模型产生不成比例的影响。
因此,L1和L2正则化的名称来自于这些数学范数- L1范数和L2范数-…