6个Pandas错误,悄悄地告诉你是个新手

6个Pandas错误,新手必读

没有错误消息 – 这就是它们的微妙之处

由我提供的图片

介绍

我们都习惯了在编码过程中经常弹出的大而胖的红色错误消息。幸运的是,人们不会注意到它,因为我们总是修复这些错误。但是那些没有报错的错误呢?这些是最棘手的,但专业人士可以轻松地找出它们。

这些错误与您使用的工具的API或语法无关,而是直接与最佳实践和您在工具上花费的时间相关。今天,我们将讨论六个这样的错误,这些错误经常在初学者 Pandas 用户中出现,我们将学习如何解决它们。

1. 使用 Pandas 本身

有点讽刺的是,第一个错误与实际使用 Pandas 进行某些任务有关。具体而言,当今的现实世界表格数据集非常庞大。使用 Pandas 将它们读入您的环境将是一个巨大的错误。

为什么呢?因为它太慢了!下面,我们加载了 TPS 2021 年 10 月的数据集,包含 100 万行和约 300 个特征,占用了整整 2.2GB 的磁盘空间。

这花了约 22 秒的时间。现在,你可能会说 22 秒并不算多,但想象一下。在一个项目中,您将在不同阶段进行许多实验。您可能会为清理、特征工程、选择模型以及其他任务创建单独的脚本或笔记本。

多次等待数据加载 20 秒真的让人心烦。此外,您的数据集可能会更大。那么,有什么更快的解决方案呢?

解决方案是在这个阶段放弃使用 Pandas,并使用专门设计用于快速IO的其他替代方案。在这个阶段,我最喜欢的是 datatable,但您也可以选择 DaskVaexcuDF,甚至是 polars。下面是使用 datatable 加载相同数据集所需的时间: