清洁+ 准备明尼苏达湖泊数据

提升清洁效果:准备明尼苏达湖泊数据

如何整理维基百科上明尼苏达州湖泊列表

有一天我开车经过我的家乡的湖泊,看到了一幅漂亮的景色。它被称为Menomin湖。我为你拍了一张照片,希望你喜欢。

图片来源:作者在Menomonie, WI市中心横跨Menomin湖的照片。

然后我想到,一个包含威斯康辛州的所有湖泊以及湖泊特征的数据集可能会对聚类教程很有趣。但是,经过努力搜索,我发现没有这样的数据集。

但是,我们威斯康辛州的西边是明尼苏达州。传说明尼苏达州有1万个湖泊。剧透警告:本文揭示了1万个湖泊的错误统计。

本文是一个教程,展示了获取明尼苏达湖泊数据并清理数据进行分析的过程。

获取数据

我之前写过关于 pd.read_html() 的文章,包括它的优势(好的一面)、它的弱点和限制(坏的一面),以及它的怪癖(丑陋的一面):pd.read_html的好、坏和丑

我们将再次使用 pd.read_html() 快速方便地从维基百科的明尼苏达湖泊列表中获取主要的表格。获取这些数据并准备进行分析的任务也始于标准导入。我们还需要使用正则表达式模块来进行一些清理工作。

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport reweb = 'https://en.wikipedia.org/'          # 指定基础URLpath = 'wiki/List_of_lakes_of_Minnesota'   # 指定URL路径tables = pd.read_html(web + path)          # 将URL传递给pd.read_html()df = tables[1]                             # 选择感兴趣的表格

以上代码首先指定了一个基础URL和维基百科感兴趣的文章路径。接下来,路径将该URL和路径传递给pd.read_html(),它返回一个表格列表。最后,对tables列表使用方括号表示法来选择主要的表格(湖泊数据)。这些数据呈现如下:

图片来源:作者屏幕截图。使用此处显示的代码产生。