6个Pandas错误,悄悄地告诉你是个新手
6个Pandas错误,新手必读
没有错误消息 – 这就是它们的微妙之处

介绍
我们都习惯了在编码过程中经常弹出的大而胖的红色错误消息。幸运的是,人们不会注意到它,因为我们总是修复这些错误。但是那些没有报错的错误呢?这些是最棘手的,但专业人士可以轻松地找出它们。
这些错误与您使用的工具的API或语法无关,而是直接与最佳实践和您在工具上花费的时间相关。今天,我们将讨论六个这样的错误,这些错误经常在初学者 Pandas 用户中出现,我们将学习如何解决它们。
1. 使用 Pandas 本身
有点讽刺的是,第一个错误与实际使用 Pandas 进行某些任务有关。具体而言,当今的现实世界表格数据集非常庞大。使用 Pandas 将它们读入您的环境将是一个巨大的错误。
为什么呢?因为它太慢了!下面,我们加载了 TPS 2021 年 10 月的数据集,包含 100 万行和约 300 个特征,占用了整整 2.2GB 的磁盘空间。
- “介绍模块化扩散:一种使用PyTorch设计和训练扩散模型的Python库”
- 新加坡南洋理工大学的研究人员提出了PointHPS:一种基于3D点云的准确人体姿态和形状估计的人工智能框架
- 用Python构建带有P值的相关矩阵
这花了约 22 秒的时间。现在,你可能会说 22 秒并不算多,但想象一下。在一个项目中,您将在不同阶段进行许多实验。您可能会为清理、特征工程、选择模型以及其他任务创建单独的脚本或笔记本。
多次等待数据加载 20 秒真的让人心烦。此外,您的数据集可能会更大。那么,有什么更快的解决方案呢?
解决方案是在这个阶段放弃使用 Pandas,并使用专门设计用于快速IO的其他替代方案。在这个阶段,我最喜欢的是 datatable
,但您也可以选择 Dask
、Vaex
、cuDF
,甚至是 polars
。下面是使用 datatable
加载相同数据集所需的时间: