Hope this helps! 希望这能帮到你!

追求美丽和时尚!希望这能给你带来帮助!

高效处理数据框的索引

Photo by Alejandro Luengo on Unsplash

想象一下,你有一个装满成千上万本书的图书馆,每本书都包含着宝贵的信息。为了找到你所需的确切书籍,你会去图书馆的索引(如果有的话),对吧?当你处理真实世界的数据时,拥有一个类似图书馆的索引对你来说至关重要,可以筛选出海量的数据,准确锁定你需要的内容,而不必费力翻找每一部分。

在本文中,我将分享一些常见但重要的与索引相关的操作,并使用简单的适用场景进行解释。无论你是数据新手还是经验丰富的专业人士,你将很快看到这些操作是如何成为你数据的最佳伙伴。

废话不多说,让我们开始吧。

快速说明一下,在数据框中,行和列都被视为索引,但在大多数数据操作中,我们通常将行视为感兴趣的索引,因为许多数据集以宽格式呈现 – 每行代表一个数据记录,列代表数据记录的不同方面。在本文中,我们将重点关注沿着行进行索引的操作。也就是说,索引的每个项对应一行。

1. 设置索引

常见的数据操作以从表格化数据源(如CSV文件)导入数据为开始。下面的截图显示了来自GitHub的在线数据源。

The source data used in this blog article (screenshot by author)

当你导入这个文件时,你会发现在源文件中的三列之前出现了一个没有名称的“额外”列。

# 从在线读取原始数据
import pandas as pd
data_url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/flights.csv"
df = pd.read_csv(data_url)
df
The data frame read from the source showing the index

自动生成的索引从0开始,并逐个增加1。你…