
在 pandas multiindex dataframe 中,直接通过列名访问索引级别数据会遇到 `keyerror`。本文旨在详细介绍如何使用 `df.index.get_level_values()` 方法,通过级别名称或位置,高效且准确地提取 multiindex 中的单个索引列。文章将通过示例代码,对比传统访问方式的局限性,并强调 `get_level_values()` 的简洁与效率。
Pandas DataFrame 是一个强大的数据处理工具,而 MultiIndex(多级索引)则进一步扩展了其能力,允许数据拥有多个层次的索引,从而实现更复杂的数据组织和访问模式。然而,对于习惯了单层索引或常规列选择的用户来说,从 MultiIndex 中提取单个“索引列”可能会遇到一些困惑。
在标准的 DataFrame 中,我们通常通过 df['column_name'] 或 df.column_name 来轻松选择一个数据列。但当一个或多个列被提升为 MultiIndex 的一部分时,它们就不再是 DataFrame 的常规数据列了。此时,尝试使用上述传统方法访问这些已成为索引级别的名称时,Pandas 会抛出 KeyError,因为它会在 DataFrame 的数据列中查找,而不是在索引结构中。同样,df.loc['level_name'] 主要用于行标签选择,而 df.index.level_name 则会引发 AttributeError,因为 MultiIndex 对象本身没有直接的属性来表示其级别名称。
为了具体说明上述问题,我们使用经典的 Iris 数据集。首先,我们将 sepal_length 和 sepal_width 两列设置为 MultiIndex:
import pandas as pd
# 加载数据集
file_name = "https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv"
df = pd.read_csv(file_name)
# 将 'sepal_length' 和 'sepal_width' 设置为 MultiIndex
df = df.set_index(['sepal_length', 'sepal_width'])
print("初始 MultiIndex DataFrame 头部:")
print(df.head())运行上述代码,我们将得到一个以 sepal_length 和 sepal_width 为两级索引的 DataFrame:
初始 MultiIndex DataFrame 头部:
                          petal_length  petal_width species
sepal_length sepal_width                                   
5.1          3.5                   1.4          0.2  setosa
4.9          3.0                   1.4          0.2  setosa
4.7          3.2                   1.3          0.2  setosa
4.6          3.1                   1.5          0.2  setosa
5.0          3.6                   1.4          0.2  setosa现在,如果尝试使用传统方法访问 MultiIndex 中的 sepal_length 级别:
# 尝试使用 df['level_name'],会引发 KeyError
try:
    df['sepal_length']
except KeyError as e:
    print(f"\n错误示例:df['sepal_length'] 导致 -> {e}")
# 尝试使用 df.level_name,同样引发 KeyError
try:
    df.sepal_length
except KeyError as e:
    print(f"错误示例:df.sepal_length 导致 -> {e}")
# 尝试使用 df.loc['level_name'],会引发 KeyError
try:
    df.loc['sepal_length']
except KeyError as e:
    print(f"错误示例:df.loc['sepal_length'] 导致 -> {e}")
# 尝试使用 df.index.level_name,会引发 AttributeError
try:
    df.index.sepal_length
except AttributeError as e:
    print(f"错误示例:df.index.sepal_length 导致 -> {e}")这些错误信息明确指出,一旦列被用作 MultiIndex 的一部分,就不能再通过传统的 DataFrame 列访问方式来获取其值。
从 MultiIndex 中提取单个级别数据的最直接、最推荐的方法是使用 df.index.get_level_values()。这个方法是专门为从 MultiIndex 对象中获取指定级别(level)的所有值而设计的。
get_level_values() 方法接受以下两种参数:
以下是使用 get_level_values() 方法提取 sepal_length 级别值的示例:
# 使用级别名称提取 'sepal_length' 的值
sepal_length_values_by_name = df.index.get_level_values('sepal_length')
print("\n通过级别名称提取 'sepal_length':")
print(sepal_length_values_by_name)
# 使用级别位置提取 'sepal_width' 的值 (sepal_width 是第一个级别,位置为 1)
sepal_width_values_by_position = df.index.get_level_values(1)
print("\n通过级别位置提取 'sepal_width' (位置 1):")
print(sepal_width_values_by_position)运行上述代码,您将看到:
通过级别名称提取 'sepal_length':
Float64Index([5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.6, 5.0, 4.4, 4.9,
              ...
              6.7, 6.9, 5.8, 6.8, 6.7, 6.7, 6.3, 6.5, 6.2, 5.9],
             dtype='float64', name='sepal_length', length=150)
通过级别位置提取 'sepal_width' (位置 1):
Float64Index([3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 3.4, 2.9, 3.1,
              ...
              3.1, 3.1, 2.7, 3.2, 3.3, 3.0, 2.5, 3.0, 3.4, 3.0],
             dtype='float64', name='sepal_width', length=150)get_level_values() 方法返回一个 Index 对象(其具体类型取决于级别的数据类型,例如 Float64Index),其中包含了该级别所有的值。这种方法不仅功能正确,而且效率高,因为它直接操作索引结构,避免了不必要的 DataFrame 重构。
虽然 get_level_values() 是提取 MultiIndex 级别值的最佳实践,但在某些情况下,或者作为一种变通方案,你可能会遇到或想到其他方法。
一种常见的替代方法是先将 MultiIndex 重置为常规列,然后再选择所需的列:
# 使用 reset_index() 方法将索引转换为常规列
sepal_length_reset = df.reset_index()['sepal_length']
print("\n使用 df.reset_index()['sepal_length']:")
print(sepal_length_reset.head())输出结果:
使用 df.reset_index()['sepal_length']: 0 5.1 1 4.9 2 4.7 3 4.6 4 5.0 Name: sepal_length, dtype: float64
这种方法确实能够达到获取索引级别值的目的,但它存在以下几个方面的考量:
因此,如果你的核心需求仅仅是获取 MultiIndex 中某个级别的值,那么 get_level_values() 仍然是更高效、更直接且更推荐的选择。
在 Pandas 中处理 MultiIndex DataFrame 时,理解如何正确地访问其索引级别是高效数据操作的关键。当需要从 MultiIndex 中提取单个索引级别的数据时,最推荐且最有效的方法是使用 df.index.get_level_values()。该方法允许您通过级别名称或其整数位置直接、高效地获取所需值,避免了传统 DataFrame 列选择方法可能导致的 KeyError。相比于通过 reset_index() 创建临时 DataFrame 的方式,get_level_values() 在性能和内存使用上更具优势。掌握这一专业技巧将显著提升您在处理复杂多级索引数据时的效率和代码质量。
以上就是Pandas MultiIndex 数据框:高效提取索引级别数据详解的详细内容,更多请关注php中文网其它相关文章!
 
                        
                        每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
 
                Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号