我向ChatGPT代码解释器展示了一个混乱的数据集和期望的清理版本

我向ChatGPT代码解释器展示了混乱的数据集和清理版本

然后坐下来观察它如何给我取得了想要的数据。

Photo by JESHOOTS.COM on Unsplash

当我看到一个原始而混乱的数据集时,我的第一反应通常是“我希望它是这种格式”。

然后,我希望有一个魔法棒,可以将混乱的数据集转换为漂亮而干净的格式。

ChatGPT Code Interpreter就是那个魔法棒。实际上,它更好。Code Interpreter不是做魔法,而是教你如何用清晰的解释和Python代码来完成所需的操作。

数据清理在典型项目中占用了大部分时间。而且,它很无聊。

你不会觉得自己完成了什么,因为清理后的数据集不是最终产品。它只是一个中间步骤。然而,它对下游过程来说绝对是必要的。

任务

我要求Code Interpreter清理一个数据集。我所需要做的就是上传原始数据集并指定我想要的格式。其余的一切都进行得非常顺利。

实际上,我之前自己清理过这个数据集。考虑到我在这个任务上花费的时间和精力,Code Interpreter所做的让我对这个插件及其潜力更加兴奋。

我还写了一篇关于我如何清理它的文章。我建议你也阅读一下那篇文章,看看Code Interpreter做得多么令人印象深刻。

原始数据集

该数据集包含了195个国家在1975年至2016年间成年人的肥胖率。

它在Kaggle上以公共领域许可证的形式提供,没有版权限制,所以请随意下载和使用。我还将分享Code Interpreter生成的代码,以便你也可以自行尝试。

以下是原始格式的样子:

Raw dataset (image by author)

它绝对不是一个可用的格式。

提示