使用这四个软件包简化您的探索性数据分析
简化探索性数据分析的四个软件包
每个数据科学家都应该拥有的四个基本工具
现在是做数据科学家的好时机!以前需要花费很多时间才能完成的工作现在可以自动化,这为改善洞察力和机器学习模型设计留下了很大的空间。
已经有很多关于这些工具的文章了,我想通过首先限制我的工具选择,并结合自己独特的见解和经验来增加更多价值。因为我们必须要有条不紊地进行选择,我们很快就会发现我们需要选择哪个工具包在我们特定的情况下效果最好。一些考虑因素可能包括速度、简单性、全面性和数据大小。
本文可以作为以下文章的延续,这些文章收集了我对数据可视化主题的见解:
- 显著改进您的探索性数据分析(EDA)
- 在探索性数据分析(EDA)中永远不要跳过这一步!
- 提升您的可视化能力:条形图比赛
废话不多说,让我们开始吧!
- 转变催化剂研究:认识CatBERTa,一种基于Transformer的AI模型,用于使用文本输入进行能源预测
- “稳定扩散”是如何工作的?直观解释
- 使用Amazon SageMaker Pipelines构建机器学习工作流程的最佳实践和设计模式
数据集
让我们从选择一个包含足够数量的定量和定性变量的数据集开始。这将使我们能够为自己的使用欣赏和评价每个可视化工具包。
我们将从OpenML获取一个数据集:
pip install openml
安装了这个包之后,让我们继续下载菲律宾收入和支出数据集。
菲律宾统计局(PSA)定期进行全国家庭收入和支出调查(FIES),每三年一次。该调查旨在收集菲律宾家庭收入、支出模式和其他相关因素的数据。
该数据集包括来自最新FIES的选定变量,拥有超过40,000个观测值和60个主要关注家庭收入和支出的变量。该数据旨在通过探索最佳模型来预测菲律宾普遍接受的社会经济分类模型的缺失…