IID 初学者的含义和解释

初学者的含义和解释

独立同分布

Photo by Yu Kato on Unsplash

在统计学、数据分析和机器学习的主题中,IID的概念经常出现作为一个基本的假设或条件。IID代表“独立同分布”。IID随机变量或序列是统计或机器模型的重要组成部分,也在时间序列分析中起着作用。

在这篇文章中,我以直观的方式从抽样、建模和可预测性的三个不同背景解释了IID的概念。在时间序列分析和可预测性的背景下,结合R代码介绍了一个应用。

抽样中的IID

符号X ~ IID(μ,σ²)表示从具有均值μ和方差σ²的总体中以纯随机方式抽样(X1, …, Xn)。也就是说,

  • X的每个连续实现都是独立的,与前一个实现或后一个实现没有关联;
  • X的每个连续实现都来自于具有相同均值和方差的相同分布。

例子

假设从一个国家的个人年收入分布中收集了样本(X1, …, Xn)。

  1. 一个研究人员选择了一名男性的收入作为X1,一名女性的收入作为X2,一名男性的收入作为X3,然后选择了一名女性的收入作为X4,并保持这样的模式直到Xn。这不是一个IID的抽样,因为抽样中存在可预测或系统性的模式,违反了独立性的条件。
  2. 一个研究人员从最贫困的个体群体中选择了(X1, … X500),然后从最富裕的群体中选择了(X501, … X1000)。这不是一个IID的抽样,因为这两个群体具有不同的收入分布,具有不同的均值和方差,违反了相同性的条件。

建模中的IID

假设Y是您想要建模或解释的变量。那么,它可以分解为两个部分:即,

Y = 系统性成分 + 非系统性成分。

系统性成分是Y受到与其他因素的基本关系驱动的部分。它是…