清洁+ 准备明尼苏达湖泊数据

提升清洁效果：准备明尼苏达湖泊数据

如何整理维基百科上明尼苏达州湖泊列表

有一天我开车经过我的家乡的湖泊，看到了一幅漂亮的景色。它被称为Menomin湖。我为你拍了一张照片，希望你喜欢。

然后我想到，一个包含威斯康辛州的所有湖泊以及湖泊特征的数据集可能会对聚类教程很有趣。但是，经过努力搜索，我发现没有这样的数据集。

但是，我们威斯康辛州的西边是明尼苏达州。传说明尼苏达州有1万个湖泊。剧透警告：本文揭示了1万个湖泊的错误统计。

本文是一个教程，展示了获取明尼苏达湖泊数据并清理数据进行分析的过程。

获取数据

我之前写过关于 pd.read_html() 的文章，包括它的优势（好的一面）、它的弱点和限制（坏的一面），以及它的怪癖（丑陋的一面）：pd.read_html的好、坏和丑。

我们将再次使用 pd.read_html() 快速方便地从维基百科的明尼苏达湖泊列表中获取主要的表格。获取这些数据并准备进行分析的任务也始于标准导入。我们还需要使用正则表达式模块来进行一些清理工作。

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport reweb = 'https://en.wikipedia.org/'          # 指定基础URLpath = 'wiki/List_of_lakes_of_Minnesota'   # 指定URL路径tables = pd.read_html(web + path)          # 将URL传递给pd.read_html()df = tables[1]                             # 选择感兴趣的表格

以上代码首先指定了一个基础URL和维基百科感兴趣的文章路径。接下来，路径将该URL和路径传递给pd.read_html()，它返回一个表格列表。最后，对tables列表使用方括号表示法来选择主要的表格（湖泊数据）。这些数据呈现如下：

清洁+ 准备明尼苏达湖泊数据

提升清洁效果：准备明尼苏达湖泊数据

如何整理维基百科上明尼苏达州湖泊列表

获取数据

QA-LoRA：在你的GPU上对一个量化的大型语言模型进行微调

我们如何有效地压缩具有一位权重的大型语言模型？这项人工智能研究提出了PB-LLM：探索部分二进制化LLM的潜力

AI和自动化软件正在改变啤酒行业的7种方式

人工智能：如何以更快速、更好的结果和更低的...

我们能把文本转化为科学矢量图吗？这篇人工智...

掌握NLP：深度学习模型的深入Python编程

我如何利用我的第一个#30DayChartChallenge来...

一个好的描述就是你需要的一切

人工智能