
本教程详细阐述了在Pandas中如何有效地将DataFrame的列(如“Continent”)设置为多级索引,以实现数据按指定列分组并优化显示。文章区分了`groupby`用于聚合和迭代的目的,以及`set_index`用于构建结构化索引的功能。通过实例代码,演示了如何利用`set_index`创建多级索引,并结合`sort_index`确保索引的正确排序和视觉上的分组折叠,从而提升数据分析的效率和可读性。
在Pandas中处理数据时,经常需要根据一个或多个列对数据进行逻辑上的分组。虽然groupby()函数是实现数据聚合和迭代操作的核心工具,但如果目标是直接将某一列或多列作为DataFrame的索引,并希望在显示时呈现出清晰的层级结构,那么set_index()函数则是更直接和高效的选择。本教程将深入探讨这两种方法的区别,并重点讲解如何利用set_index()构建一个结构清晰、易于管理的多级索引。
在深入实践之前,首先需要明确groupby()和set_index()在Pandas中的不同职责:
groupby() 函数:groupby()主要用于将DataFrame按照一个或多个键进行逻辑上的分组,以便后续对每个组执行聚合(如求和、平均值、计数)、转换或过滤操作。它返回一个DataFrameGroupBy对象,这个对象本身并不是一个DataFrame,而是包含了分组信息和用于执行组操作的方法。
示例:groupby() 用于聚合
import pandas as pd
# 示例数据
data = {
'Country': ['China', 'United States', 'Japan', 'United Kingdom', 'Russian Federation', 'India', 'Germany', 'France', 'Australia', 'South Korea', 'Iran'],
'Continent': ['Asia', 'North America', 'Asia', 'Europe', 'Europe', 'Asia', 'Europe', 'Europe', 'Australia', 'Asia', 'Asia'],
'Population': [1367.64, 317.61, 127.40, 63.87, 143.50, 1276.73, 80.36, 63.83, 23.31, 49.80, 77.07]
}
df = pd.DataFrame(data)
# 使用groupby计算每个大洲的总人口
continent_population_sum = df.groupby('Continent')['Population'].sum()
print("按大洲分组并求和:")
print(continent_population_sum)
# 输出示例:
# Continent
# Asia 2898.64
# Australia 23.31
# Europe 351.56
# North America 317.61
# Name: Population, dtype: float64set_index() 函数:set_index()用于将DataFrame中的一个或多个现有列转换为新的索引。当指定多个列时,它会创建一个MultiIndex(多级索引),从而在DataFrame中建立层次化的数据结构。这种操作直接改变了DataFrame的骨架,使得数据可以通过索引进行更灵活、高效的选取和对齐。
当我们的目标是让DataFrame以“Continent”作为主索引,并在其下层级展示“Country”及其他相关数据时,set_index()是实现这一目的的正确选择。
假设我们有以下DataFrame,其中包含了国家、大洲和人口数据:
import pandas as pd
data = {
'Country': ['China', 'United States', 'Japan', 'United Kingdom', 'Russian Federation', 'India', 'Germany', 'France', 'Australia', 'South Korea', 'Iran'],
'Continent': ['Asia', 'North America', 'Asia', 'Europe', 'Europe', 'Asia', 'Europe', 'Europe', 'Australia', 'Asia', 'Asia'],
'Population': [1367.64, 317.61, 127.40, 63.87, 143.50, 1276.73, 80.36, 63.83, 23.31, 49.80, 77.07]
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df.head())输出:
原始DataFrame:
Country Continent Population
0 China Asia 1367.64
1 United States North America 317.61
2 Japan Asia 127.40
3 United Kingdom Europe 63.87
4 Russian Federation Europe 143.50现在,我们希望将'Continent'和'Country'都设置为索引,并让'Continent'作为最高层级。
# 将 'Continent' 和 'Country' 设置为多级索引
df_indexed = df.set_index(['Continent', 'Country'])
# 为了在显示时实现索引的视觉折叠(即相同大洲只显示一次),需要对索引进行排序
df_indexed = df_indexed.sort_index()
print("\n设置多级索引并排序后的DataFrame:")
print(df_indexed)输出:
设置多级索引并排序后的DataFrame:
Population
Continent Country
Asia China 1367.64
India 1276.73
Iran 77.07
Japan 127.40
South Korea 49.80
Australia Australia 23.31
Europe France 63.83
Germany 80.36
Russian Federation 143.50
United Kingdom 63.87
North America United States 317.61从上述输出可以看出,'Continent'现在作为一级索引,'Country'作为二级索引。Pandas在显示时,对于连续相同的上级索引值会自动进行折叠,使得“Asia”、“Australia”、“Europe”和“North America”各自只显示一次,清晰地展现了数据的层次结构。
sort_index() 的重要性:sort_index()函数对于多级索引的视觉效果至关重要。Pandas只有在多级索引的所有级别都已排序的情况下,才会自动“折叠”显示重复的索引值。如果索引未排序,即使值相同,也会重复显示,从而失去层次感。
索引名称: 在set_index()中指定的列名将成为索引的名称。这有助于在后续的数据选取和操作中提高代码的可读性。
恢复列: 如果需要将索引重新变回普通列,可以使用reset_index()方法。
df_reset = df_indexed.reset_index()
print("\n恢复列后的DataFrame:")
print(df_reset.head())输出:
恢复列后的DataFrame: Continent Country Population 0 Asia China 1367.64 1 Asia India 1276.73 2 Asia Iran 77.07 3 Asia Japan 127.40 4 Asia South Korea 49.80
数据选取: 多级索引使得数据的选取更加灵活和强大。例如,要选取所有亚洲国家的数据:
asia_data = df_indexed.loc['Asia']
print("\n选取亚洲所有国家的数据:")
print(asia_data)输出:
选取亚洲所有国家的数据:
Population
Country
China 1367.64
India 1276.73
Iran 77.07
Japan 127.40
South Korea 49.80本教程阐明了在Pandas中,当需要将列作为DataFrame的层次化索引时,set_index()是比groupby()更合适的工具。groupby()专注于数据聚合和迭代,而set_index()则直接重构DataFrame的索引结构。通过结合set_index()和sort_index(),我们可以高效地创建和管理多级索引,不仅提升了数据的组织性,也极大地便利了数据的查询和分析。理解并恰当运用这两种方法,将使你在Pandas数据处理中更加游刃有余。
以上就是掌握Pandas多级索引:如何将分组列设置为DataFrame索引的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号