你需要了解的两个有趣的Pandas数据操作函数

两个有趣的Pandas数据操作函数

数据科学

非常有用的pandas函数,用于将连续的pandas列转换为分类列。

Brendan Church在Unsplash上的照片

Python的pandas是一个强大且广泛使用的数据分析库。

它提供了200多个函数和方法,使得数据处理和转换变得简单。然而,在实际工作中要了解所有这些函数并在需要时使用它们并不是一件可行的任务。

数据操作中的一个常见任务是将具有连续数值的列转换为包含离散或分类值的列。pandas有两个令人惊叹的内置函数,可以帮助你节省一些时间。

你可以将这种类型的数据转换用于各种应用,例如对数据进行分组、按离散组分析数据或使用直方图可视化数据。

例如,

最近,我计算了Herfindahl-Hirschman指数(HHI)来了解多个品牌的市场集中度。因此,在一个pandas DataFrame中,我有一个包含所有品牌HHI的连续值的列。最终,我想将这一列转换为一个离散列,将每个品牌分类为低、VoAGI和高市场集中度,这就是我为这个故事灵感的地方。

如果不了解这些内置的pandas函数,你可能需要编写多个if-else和for语句来完成相同的工作。

因此,在这里你将探索这两个超级有用的内置pandas函数,以及有趣的示例(包括我的项目),这将增强你的数据分析能力,为你节省几分钟的时间。

在分析项目中,经常需要将具有连续值的列转换为具有离散值的另一列。

因此,基本上你将连续的数据分为多个类别,即桶或箱子。你可以通过指定每个箱子的最小和最大值(即定义箱子边界)或指定箱子的数量来实现。

根据将连续系列拆分为离散系列的目的,你可以…