什么是协方差和相关性的区别?

介绍

在广阔的统计学领域中,理解和发掘变量之间错综复杂的关联是至关重要的。

从数据驱动的决策到科学发现再到预测建模,都取决于我们解开复杂数据集中隐藏的连接和模式的潜力。在支持这一追求的各种统计标准中,协方差和相关性是至关重要的,可以揭示变量之间的独立性。

协方差和相关性是统计分析中经常出现的变量,但人们经常对它们产生误解或混淆使用。区分这两个标准的微妙差别可以深刻地影响我们对统计关系的解释和利用。

因此,了解协方差和相关性的真实本质对于任何追求发掘数据潜力的数据爱好者或专业人士至关重要。

本博客-协方差与相关性-将讨论这两个统计概念的差异,并揭开它们之间的关系的神秘面纱。

另外,通过参加Analytics Vidhya的数据科学学习Swift课程,提升您的数据科学职业技能。

协方差

这是一个统计术语,表示两个随机变量之间的系统关联,其中一个变量的变化与另一个变量的变化呈镜像关系。

协方差的定义和计算

协方差表示两个变量是否成正比或反比。

协方差公式确定了数据集中数据点与其平均值之间的关系。例如,您可以使用以下公式计算两个随机变量X和Y之间的协方差:

在上述过程中,

解读协方差值

协方差值表示变量之间的关系的大小和方向(正向或负向)。协方差值的范围从-∞到+∞。正值表示正向关系,负值表示负向关系。

正向、负向和零协方差

数值越大,变量之间的关系就越依赖。让我们逐个理解每种协方差类型:

正向协方差

如果两个变量之间的关系是正向协方差,它们会朝着同一个方向发展。这表示变量之间存在直接关系。因此,变量的行为将是相似的。

只有当一个变量的值(较小或较大)等于另一个变量的重要性时,变量之间的关系才会是正向协方差。

负向协方差

负数表示两个随机变量之间的负向协方差。这意味着变量之间存在相反的关系。在负向协方差中,变量的变化方向相反。

与正向协方差相反,一个变量的增大对应另一个变量的减小,反之亦然。

零协方差

零协方差表示两个变量之间没有关系。

协方差在评估线性关系中的重要性

协方差在确定变量之间的线性关系方面非常重要。它指示变量之间的方向(负向或正向)和关系的强度。

较高的协方差值表示变量之间有很强的线性关系,而零协方差表示没有关联。

协方差的限制和注意事项

测量尺度会影响协方差,并且受异常值的影响较大。协方差仅限于测量线性关系,并不能理解其方向或强度。

此外,由于不同的变量范围,比较不同数据集中的协方差需要谨慎。

相关性

与协方差不同,相关性告诉我们多个变量之间的关系的方向和强度。相关性评估两个或多个随机变量按顺序进行的程度。

相关系数的定义和计算

相关性是一个统计概念,确定两个数值变量之间的关系强度。在推断变量之间的关系时,我们推断一个变量的变化会对另一个变量产生不同的影响。

当另一个变量的类似变化以某种方式反映了一个变量的进展时,这些变量是相关的。

计算相关系数的公式如下:

其中,

解释相关系数的值

基于不同的数值,有三种类型的相关性。负相关、正相关和无相关或零相关。

正相关、负相关和零相关

如果两个变量是直接成比例的,那么这两个变量被称为正相关。这意味着如果一个变量的值增加,另一个变量的值也会增加。完全正相关的值为1。

以下是正相关的示例:

在负相关中,一个变量的值增加,而第二个变量的值减少。完全负相关的值为-1。

负相关的示例如下:

与协方差的情况类似,零相关意味着变量之间没有关系。因此,一个变量的增加或减少不会影响另一个变量。

相关性的强度和方向

相关性评估多个变量之间线性关系的方向和强度。相关系数的取值范围从-1到1,接近-1或1的值表示高度关联(负相关或正相关),接近0的值表示弱相关或无相关。

皮尔逊相关系数及其特性

皮尔逊相关系数(r)衡量两个变量之间的线性关系。皮尔逊相关系数的特性包括以下内容:

  • 强度:系数的绝对值表示关系的强度。系数的值越接近1,变量之间的相关性越强。然而,接近0的值表示较弱的关联。
  • 方向:系数的符号表示关系的方向。如果值为正,表示两个变量之间存在正相关,这意味着如果一个变量增加,另一个变量也会增加。如果值为负,表示负相关,这意味着当一个变量增加时,另一个变量会减少。
  • 范围:系数的取值范围从-1到1。多个-1表示完全线性关系,0表示没有线性关系,1表示理想的线性关系。
  • 独立性:皮尔逊相关系数衡量两个变量的线性依赖性,但并不意味着因果关系。强相关并不保证存在因果关系。
  • 线性性:皮尔逊相关系数只评估变量之间的线性关系。对于非线性关系,该系数可能不足以完整描述。
  • 对异常值的敏感性:数据中的异常值可能会影响相关系数的值,从而增大或减小其大小。

如果您想要在数据科学项目中进行实践,可以探索Analytics Vidhya提供的针对分析师和数据科学家的顶级数据科学项目的综合计划。

其他类型的相关系数

其他相关系数包括:

  • 斯皮尔曼等级相关:它是一种非参数的等级相关指标,用于评估两个变量的等级关系或统计依赖性。它评估了一个单调函数能够捕捉两个变量之间的关系的效果。
  • 肯德尔等级相关:一种统计量,确定两个测量值之间的序列关系。它表示数据通过每个数量排序时的数据排序的相似性,是一种等级相关性的度量。

反对称族的斯皮尔曼等级相关和肯德尔的tau本质上是奇数参数函数的图像。

协方差的优缺点

以下是协方差的优点和缺点:

优点

  • 计算简单:计算协方差不需要对底层数据分布做任何假设。因此,使用上述公式计算协方差很容易。
  • 理解关系:协方差衡量变量之间的线性关联程度,提供有关关系的大小和方向(正相关或负相关)的信息。
  • 在组合分析中有益:协方差通常用于组合分析,以评估整合不同资产的分散化优势。

缺点

  • 仅限于线性关系:协方差只能衡量变量之间的线性关系,无法捕捉非线性关联。
  • 不提供关系强度:协方差无法提供关系强度的标准化估计。
  • 尺度依赖性:协方差受到变量测量尺度的影响,导致在不同数据集或具有不同单位的变量之间比较协方差变得困难。

相关性的优缺点

相关性的优点和缺点如下:

优点

  • 确定非线性关系:虽然相关性主要估计线性关系,但也可以显示非线性连接的存在,特别是使用Spearman等替代相关系数标准时。
  • 标准化准则:相关系数(如皮尔森相关系数)是标准化的,范围从-1到1。这样可以方便地比较和解释不同数据集之间的关系的方向和强度。
  • 对异常值的鲁棒性:相关系数通常对异常值的敏感性较低,提供了更强的变量间关联的标准。
  • 尺度无关性:相关性不受测量尺度的影响,便于比较具有不同单位或尺度的变量之间的关联。

缺点

  • 受极端值影响:极端值仍然可以影响相关系数,尽管其对异常值的敏感性较协方差较低。
  • 数据要求:相关性假设数据符合双变量正态分布,这并不总是准确的。
  • 仅限于双变量分析:因为相关性仅检验两个变量之间的关系,所以只能捕捉简单的多变量相关。

协方差和相关性的相似之处

协方差与相关性之间确实存在一些差异,但它们也有一些相似之处。以下是一些相似之处:

变量之间关系的指标

相关性和协方差都只衡量变量之间的线性关系。这意味着如果相关系数为零,协方差也为零。即使位置发生变化,也不会影响相关性和协方差的标准。

线性关联的度量

协方差和相关性都是用来评估变量之间关系的度量。它们可以清楚地说明变量之间的联系。

使用相同变量的计算

计算协方差和相关性都需要相同的一组变量。它们需要

协方差和相关性的计算都涉及相同的一组变量。它们需要变量的配对观察结果来确定它们之间的关系。

然而,如果要在协方差和相关性之间选择以计算变量之间的关系,专家们总是更喜欢使用相关性,因为尺度的改变不会影响相关性。

协方差和相关性的区别

虽然它们都是统计术语,但协方差和相关性在许多方面有所不同。

解释和值的尺度

尺度的改变会改变协方差的值。协方差的数值越大,依赖性越强。解释协方差很困难。

相反,相关性的值不受尺度变化的影响。相关系数的范围是从-1到1,这使得解释更加简单明了,不像协方差那样复杂。

与测量单位的关系

变量的测量单位会影响协方差,使得在比较具有不同单位的数据集或变量之间的协方差值变得困难。

另一方面,相关系数没有任何单位,不依赖于测量单位,允许在具有不同单位的变量之间进行比较。

标准化和跨数据集比较

由于协方差没有标准化,比较不同数据集之间的协方差是具有挑战性的。而相关系数是标准化的。因此,直接比较变量、数据集或上下文之间的相关系数是容易的。

对异常值的鲁棒性

异常值会极大地影响协方差的值。因此,协方差对异常值的存在非常敏感。相反,相关系数提供了一种更稳健的变量关系标准,因为相关系数对异常值的影响较小。

在不同上下文和应用中的使用

协方差在以下领域有应用:

  • 生物学 – 分子和基因组学中用于测量特定的DNA。
  • 在金融市场中估计不同资产的投资金额。
  • 从海洋学/天文学研究中收集数据以得出结论。
  • 检查具有主要元素逻辑含义的数据集。
  • 研究以不同形式获得的信号。

另一方面,相关性有以下应用:

  • 用于模式识别
  • 衡量贫困与人口之间的关系
  • 分析夏季温度上升与家庭成员用水量之间的关系
  • 估计顾客在在线电子商务网站上花费的时间与金钱关系
  • 比较过去的天气预报报告与当前年份的情况。

总结一下区别,以下是一张你必须浏览的表格:

用例和示例

以下是协方差与相关性的一些实际应用和示例:

协方差有用的实际场景

协方差在以下三个实际场景中被证明是有益的:

  1. 市场研究:协方差在市场研究中被用于分析变量之间的关联,例如销售收入和广告支出之间的关系,以理解营销努力对业务结果的影响。
  2. 风险评估:协方差有助于风险管理和风险评估。例如,在保险业中,协方差可以帮助确定不同变量之间的关联(例如索赔频率、健康状况和年龄),以评估潜在损失并设置适当的保费。
  3. 投资组合分析:协方差在金融中有广泛的应用,用于评估投资组合中不同资产回报之间的关系。正协方差意味着资产会朝着同一方向移动,而负协方差则表示它们会朝相反的方向移动。这样的信息对于投资组合多样化管理风险很有帮助。

相关性有用的实际场景

一些相关性的实际案例包括预测、数据分析和医学研究。

  1. 预测:相关性有助于预测者确定他们可以根据另一个变量的值来预测一个变量的程度。例如,销售预测中的相关性可以有助于根据以前的销售记录预测未来的销售。
  2. 数据分析:数据分析人员广泛使用相关性来量化和确定变量之间的关系。例如,在社会科学中,相关性可以帮助确定教育水平或收入之间的关联,或者生产力和工作满意度之间的关联。
  3. 医学研究:在医学研究中,相关性有助于找到变量之间的关联,例如肺癌与吸烟之间的关联,或心血管疾病风险与BMI(身体质量指数)之间的关联。

协方差和相关性的真实世界示例和应用

虽然上面已经描述了协方差和相关性的应用,但以下是一些实际世界中的例子:

协方差在金融和现代投资组合理论中被广泛使用。例如,证券与市场之间的协方差被用于计算模型的一个关键变量之一,即资本资产定价模型(CAPM)中的贝塔,该模型确定资产的预期回报。

在CAPM中,贝塔量化了一项资产相对于整个市场的波动性或系统风险;它是一个有价值的指标,使用协方差来确定投资者特定于一项投资的风险敞口。

相关性的例子包括跑步时间与体脂肪。一个人花在慢跑上的时间越多,体脂肪越少。换句话说,变量跑步时间和变量体脂肪之间存在负相关关系。随着跑步时间的增加,体脂肪减少。

另一个例子是体重与身高。个体的体型和体重之间的关系通常是正向的。换句话说,身高较高的人往往体重更重。

选择协方差和相关性时要考虑的要点

在得出结论或选择协方差或相关性之前,您必须考虑以下因素:

1. 研究问题或目标的考虑因素

关注您的需求。您选择的方法必须符合特定的目标或研究问题。如果您的目的是估计变量之间线性关联的方向和强度,那么选择相关性是明智的。然而,如果您希望测量关系的程度而不进行任何解释,可以选择协方差。

2. 变量的性质和基本假设

下一点要考虑的是您正在研究的变量的性质和每个测量方法的假设。相关性没有单位;它是无单位的,并且包含了变量之间的线性关系。然而,协方差关注基本单位并对刻度敏感。

3. 数据的可用性和测量刻度

不要忘记评估变量的测量刻度和可用数据。虽然协方差要求变量的配对观测,但相关性需要类似的双变量正态性假设。

4. 标准化解释或比较的重要性

您必须分析对比或标准化解释在各个变量或数据集之间的需要。如果比较很重要,相关性的标准化范围从-1到1,可以进行简单的比较和解释。

5. 在特定分析或领域中的适用性

您必须选择特定的分析或研究领域。协方差适用于市场研究、风险评估和金融领域,而相关性适用于预测、数据分析和社会科学等领域。

结论

了解协方差和相关性之间的差异是重要的。协方差测量线性关系的程度,而相关性则提供了一个标准化的测量,同时考虑了关系的方向和强度。

协方差与相关性之间有几个区别的基础,例如标准化、解释、刻度、对异常值的敏感性以及在各种术语中的应用。尽管它们有很大的不同,但它们也有一些相似之处。它们是变量之间关系的指标和线性关联的量度。

选择适当的测量方法很重要。它应该基于具体要求和分析的背景。协方差在市场研究、风险评估、投资组合分析等方面有益,而相关性在医学研究、预测、数据分析等领域有帮助。

如果您希望加快职业发展,为什么不与专家一起做呢?请探索Analytics Vidhya的数据科学技巧和诀窍课程,提升您的数据科学技能,并获得作为数据科学家的丰厚职业。

常见问题