使用PandasGUI革新数据分析
PandasGUI释放了前所未有的简单高效的数据分析
在当今数据驱动的世界中,有效的数据分析对于企业来说至关重要,而Pandas是一个用于操作和清理数据的Python库,已经成为一项不可或缺的资产。尽管对于初学者或更喜欢更加视觉化的方法来快速学习的人来说并不容易。但是PandasGUI提供了一种令人惊叹的解决方案:一个具有图形用户界面的神奇库,可以简化数据操作和可视化能力。本文将介绍安装方法并展示其卓越的功能,以增强数据分析能力。
开始使用PandasGUI
开始使用PandasGUI的第一步是下载其软件包。您可以通过在命令行中运行以下命令来执行此操作:
pip install pandasgui
现在,您可以使用以下命令加载和导入:
import pandas as pd
import pandasgui
如果您使用的是Windows之外的其他操作系统,则可能会因缺少环境变量APPDATA而遇到一些问题。如果您正在使用Mac OS或Linux并尝试导入PandasGUI,则会收到类似的错误:
解决此问题的一个简单方法是将空字符串指定为导致错误的环境变量的值。通过这样做,您可以绕过任何错误,并允许您的代码在没有中断的情况下继续进行?-这是一种提供快速缓解当前问题的有效解决方案。
import os
os.environ['APPDATA'] = ""
现在,您可以导入它而不会有任何错误。您可能会收到一个警告消息,这没关系。这个警告的原因是Mac OS缺少一些推荐接口的实现,所以系统会给出这个警告。
最后一步是加载一个数据集,以用于演示此库的功能。您可以加载您选择的结构化数据集,也可以使用PandasGUI可用的数据集。在本文中,我们将使用PandasGUI库附带的泰坦尼克号数据集。
from pandasgui.datasets import titanic
现在,我们已经准备好启动PandasGUI了。只需调用下面代码中显示(show())函数即可:
pandasgui.show(titanic)
执行这些命令后,一个新窗口将打开以显示您上传的数据帧。
PandasGUI功能
UI界面非常简单。它由以下组件组成。后面的子部分中我会介绍它们。
- 查看和排序数据框
- 重塑数据框
- 数据框过滤
- 汇总统计数据
- 交互式绘图
查看和排序数据框
PandasGPU的第一个功能是以升序和降序查看和排序数据框。这是数据探索的重要步骤,可以轻松完成,如下图所示:
重塑数据框
PandasGUI提供了两种重塑数据框的方法,即透视(pivot)和融合(melt)。透视通过将值从一列移动到多个列来转换数据框。当您试图围绕特定列进行旋转操作来重构数据时,可以使用它。通过为旋转操作指定索引和列,您可以更轻松地重塑数据框。
另一方面,融合方法使您可以取消数据框的旋转操作,将多列合并为单个列,同时保持其他列作为变量。当从宽形转换为长形或归一化数据集时,此功能特别有用。
在下面的gif中,我们将使用透视方法来重塑泰坦尼克号数据框:
DataFrame 过滤
在许多情况下,您希望根据某些条件过滤数据集,以进一步了解数据或从数据集中提取某个特定部分。要使用 PandasGUI 对数据应用过滤器,首先您需要进入过滤器部分并编写每个过滤器,然后应用它们。假设我们只想获取以下乘客:
- 男性
- 属于 Pclass 3
- 幸存了船难
- 年龄在 30 到 40 岁之间
因此,下面是我们将应用于数据集的四个过滤器:
- 性别 == ‘男性’
- Pclass == ’3′
- 幸存 ==1
- 30 < 年龄 < 40
在下面的 gif 中,演示了如何对 Titanic 数据集应用这四个过滤器:
总体统计
您还可以使用 PandasGUI 为 DataFrame 提供详细的统计概述。这将包括数据集每列的平均值、标准差、最小值和最大值。
交互式绘图
最后,PandasGUI 为数据集提供了强大的交互式绘图选项,包括:
- 直方图
- 散点图
- 折线图
- 条形图
- 箱线图
- 小提琴图
- 三维散点图
- 热力图
- 等高线图
- 饼图
- Splom 图
- 词云
在下面的 gif 中,我们将为我们的数据集创建三个交互式图表:饼图、条形图和词云。
本文重点介绍了 PandasGUI 的功能,这是一个功能强大的库,为广泛使用的 Pandas 库添加了图形用户界面。我们首先演示了其安装,加载了一个示例数据集,然后探索了过滤、排序和统计分析等功能。
参考文献
- PandasGUI:使用图形用户界面分析 Pandas 数据帧
- 关于 PandasGUI 的一切
- PandasGUI——轻松数据分析的终极秘密
Youssef Rafaat 是一位计算机视觉研究员和数据科学家。他的研究重点是为医疗应用开发实时计算机视觉算法。他还曾在市场营销、金融和医疗领域担任数据科学家超过 3 年。