“提升你的Python数据处理能力的2个任务”

提升你的Python数据处理能力的两个任务

如何将原始数据转换为更可用和结构化的格式。

(由作者使用Midjourney创建的图片)

在学习新工具时,我们通常会查阅文档、观看教程、阅读文章和解决示例。这种方法还不错,并且会在一定程度上帮助您学会该工具。

然而,当我们开始在现实环境中使用该工具或解决实际问题时,我们需要超越大多数教程中涵盖的内容。

在本文中,我将逐步解释我在工作中如何使用Python处理两个不同的数据清理和预处理任务。对于每个任务,我将向您展示原始数据和期望的格式。然后,我将解释获取数据到该格式的代码。

我们将深入探讨Python的内置数据结构和Pandas库,因此您应该期望学到一些有关使用Python进行数据整理的有趣知识。

1. 问题统计

我有一个包含问题和摘要列表的DataFrame。我这里不使用或分享原始数据。相反,我以与原始数据相同的格式生成了模拟数据。如果您想通过执行代码来跟随,请从我的数据集存储库下载“mock_issues.csv”文件。

我们在数据整理方面要做的取决于格式而不是内容,因此本文中将学习的函数和方法适用于原始数据。事实上,该过程与我在工作中所做的完全相同。

假设我们有一个包含以下列的多行的DataFrame:

(由作者创建的图片)

原始问题列中的每行都包含以下格式的问题列表:

""""[1-The find_duplicates method is inefficiently using the data structures leading to high time complexity., 2- Built-in data structures are not used efficiently in the generate_meta method.,3- In the ExerciseGenerator class, excessive use of global variables may slow down the program.,4- The get_all_contributors_for_repo method is not using built-in…