使用直方图探索数据分布

学习使用直方图探究数据分布的基础知识

直方图是一种数据可视化,广泛应用于数据科学和统计学中,用于探索数据的分布。要创建一个直方图,将感兴趣的特征值分组到箱中,并计算箱中的数据条目总数,这些值表示计数。直方图是数据值(自变量)和计数(因变量)的图。通常,要绘制的特征表示水平轴,而计数是垂直轴。

使用直方图探索男性和女性身高数据分布

为了说明直方图用于探索数据分布的用途,我们将使用身高数据集。该数据集包含男性和女性的身高数据。

# 导入必要的库
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 获取数据集
df = pd.read_csv('https://raw.githubusercontent.com/bot13956/Bayes_theorem/master/heights.csv')

# 显示数据集头
pd.head()

所有身高的直方图

我们可以使用以下代码绘制所有身高的分布。

sns.histplot(data = df, x="height")

plt.show()

显示男性和女性身高类别的直方图

由于数据集是分类的,因此我们可以生成男性和女性身高分布的直方图,如下所示。

sns.histplot(data=df, x="height", hue="sex")

plt.show()

男性和女性身高的分开直方图

我们可以绘制男性和女性身高的分开直方图,如下所示。

sns.histplot(data = df[df.sex=='Male']['height'], color='blue')

plt.show()

sns.histplot(data = df[df.sex=='Female']['height'], color='orange')

plt.show()

具有核密度估计图的直方图

可以添加核密度估计(KDE)图以平滑直方图并估计数据的概率分布。

sns.histplot(data = df, x = 'height', KDE = 'True')

plt.show()

sns.histplot(data=df, x="height", hue="sex", KDE = 'True')

plt.show()

具有男性和女性身高分布的KDE图的直方图。作者的图像。

显然,我们可以从上图中观察到身高数据是双峰的,对应于男性和女性类别。

总结

总之,我们已经回顾了使用直方图来探索数据分布。使用身高数据集,我们显示了为数据集中的每个类别生成直方图的重要性。我们还展示了如何使用KDE图来平滑直方图以产生近似连续分布曲线。Benjamin O. Tayo是一位物理学家,数据科学教育家和作家,也是DataScienceHub的所有者。以前,Benjamin在U. of Central Oklahoma,Grand Canyon U.和Pittsburgh State U.教授工程和物理学。