从数据到收益:使用线性回归
数据转收益:线性回归
揭开预测分析背后的神奇
数据驱动的决策已经成为各行各业企业的改革者。从优化营销策略到预测客户行为,数据是开启未开发机会的关键。在本文中,我们将探索使用线性回归作为将数据洞察转化为实际财务收益的强大工具以及其背后的数学。
线性回归是一种监督学习方法,用于预测因变量(Y)与自变量(X)之间的关系。例如,股票价格预测。
线性回归的类型
- 简单线性回归:这里有一个输入列和一个输出列。
- 多元线性回归:这里有多个输入列和一个输出列。
- 多项式线性回归:如果数据不是线性的,则使用它。
线性回归的假设
- 因变量和自变量之间的关系是线性的。
- 变量之间几乎没有多重共线性。
- 假设其呈正态分布。
主要目标是找到最佳拟合线,描述自变量和因变量之间的关系,通过获得具有最小误差的线。
最佳拟合线:它是穿过最多点的线,实际点与线之间的距离最小。
但是我们如何找到最佳拟合线?
我们从一条横线开始,这条线穿过数据值的平均值,可能是最糟糕的拟合线,但它给我们一个起点,讨论如何找到最优线与数据的关系。对于这条横线,x = 0,因为y = mx + c,而x = 0。因此y = c(最糟糕的情况,因为这里的y不依赖于我们的因变量)。在下一步中,我们将找到该线的平方残差和(SSR)。
平方残差和(SSR):它是从线到数据的距离,将其平方然后相加以找到SSR值。残差是误差的另一个词。
我们的目标是找到最小的SSR。因此,我们将旋转我们的横线,并考虑新线的SSR。我们将继续对不同的旋转进行此操作。
在所有这些得到的SSR中,我们将考虑最小的那一个,并使用该线拟合我们的数据。因此,拟合度最小的线被强加在数据上,因此这种方法被称为最小二乘法。
线性回归的不同算法
- 普通最小二乘法(OLS)
- 梯度下降:这是一种优化技术
线性回归的评估指标
- 平均绝对误差(MAE):它不可微分。在尝试找到MAE时,保持单位不变,使其易于解释数据,并且对异常值具有鲁棒性。
- 均方误差(MSE):它是可微分的,但由于我们在这里对单位进行了平方,所以其解释性会受到单位变化的影响。
- 均方根误差(RMSE):
可解释性:MAE>RMSE>MSE对异常值敏感:MSE>RMSE>MAE
- 决定系数(R2):它是确定系数或拟合优度,用于检查我们的最佳拟合线与最差线之间的好坏程度。R2的值范围从0到1。模型越接近完美,R2值越接近1;模型越接近最差,R2值越接近0。它告诉我们y变量的多少变化可以由x变量解释。
R2 = 解释的方差/总方差R2 = (总方差 – 未解释的方差) / 总方差 R2 = 1 – (未解释的方差 / 总方差)这里,总方差 = 变异(均值):(数据-均值)²/n未解释的方差 = 变异(拟合):(数据-线)²/n
例如,您想预测减重,并且有卡路里摄入变量。如果得到的R2为70%,这意味着70%的减重变量的变异可以通过学习时间变量来解释。这具有70%的准确性,即拟合优度。现在,如果我们添加一个新的特征“睡眠小时”,而这个特征与目标变量即减重没有太大相关性。但是,如果我们再次计算R2,即使我们添加的新特征与目标变量无关,R2也会增加。但这是不正确的,因为它在现实中增加了模型的准确性,而实际上并没有增加,而且我们还增加了计算能力,因为我们必须训练一个不需要的额外列。
R2的问题:即使模型中涉及的特征并不重要,R2值也会增加,即使它增加了一个很小的数字,但它永远不会减少。因此,即使不应该增加R2,因为添加的特征不重要,我们还是不得不不必要地训练模型。因此,我们需要对此进行惩罚,因此有“调整的R2”。
- 调整的R2:现在想象一下,您正在模型中添加更多特征,因此您的R2值会增加,因为SS(res)值将始终减小。因此,调整的R2就出现了,它基本上对不相关的属性进行惩罚。因此,只有当我的属性不相关时,它才会降低我的R2值,否则它将增加。
调整的R2 = 1 – ((1 – R2)(N – 1) / N – P – 1)N = 数据点数量 P = 独立特征数量
因此,只有当自变量显著且影响因变量时,调整的R2才会增加。而且不会发生过拟合,因为我们在这里对值进行了惩罚。
谢谢阅读!如果您喜欢这篇文章并想阅读更多我的作品,请考虑在VoAGI上关注我。我期待在未来与您分享更多。