使用Pandas根据中位数绝对离差选择DataFrame高变异列

聖光之護

发布时间：2025-11-28 11:33:48

478人浏览过

来源于php中文网

原创

使用Pandas根据中位数绝对离差选择DataFrame高变异列

本教程详细介绍了如何利用pandas库高效地从大型dataframe中筛选出具有最高中位数绝对离差（mad）的列。mad作为一种对异常值不敏感的稳健统计量，是衡量数据离散程度的有效方法。文章通过计算每列的mad值，然后排序并选取指定数量的列，最终生成包含这些高变异列的新dataframe，提供清晰的代码示例和专业指导。

理解中位数绝对离差 (MAD)

中位数绝对离差 (Median Absolute Deviation, MAD) 是一种衡量数据离散程度的统计量，它通过计算数据点与其中位数之间绝对差值的中位数来反映数据的波动性。与标准差不同，MAD对数据集中的异常值具有更强的鲁棒性，因为它基于中位数而非均值进行计算。在处理可能含有异常值或非正态分布的数据时，MAD是衡量变异性的一个优秀选择。

在Pandas DataFrame中选择高变异列

在数据分析和机器学习的特征工程阶段，我们经常需要从包含大量特征（列）的数据集中选择最具信息量或变异性的特征。当数据集列数庞大，例如包含数万列时，手动筛选或基于简单统计量（如标准差）可能不够高效或稳健。此时，利用MAD作为筛选标准，可以帮助我们识别那些在整体数据分布中显示出更大变动的列。

核心步骤

选择具有最高MAD值的列主要分为以下几个步骤：

WeShop唯象

WeShop唯象是国内首款AI商拍工具，专注电商产品图片的智能生成。

下载

计算每列的中位数绝对离差 (MAD)：对于DataFrame中的每一列，首先计算其所有数值的中位数，然后计算每个数值与该中位数之差的绝对值，最后再计算这些绝对差值的中位数。
排序MAD值：将计算得到的每列MAD值按降序排列，以便识别出变异性最高的列。
选择目标列：根据排序结果，选取前N个具有最高MAD值的列的名称。
构建新DataFrame：使用这些选定的列名从原始DataFrame中提取数据，生成一个新的DataFrame。

示例代码

以下是一个使用Pandas实现上述过程的完整示例。假设我们有一个包含大量列的DataFrame，需要从中选出具有最高MAD值的指定数量的列。

import pandas as pd
import numpy as np

# 1. 创建一个示例DataFrame
# 包含1000行和20000列，数值在0到1之间
rng = np.random.default_rng(seed=2024)
df = pd.DataFrame(rng.random((1000, 20000)))

print("原始DataFrame的形状:", df.shape)
print("原始DataFrame前5行：")
print(df.head())

# 2. 计算每列的中位数绝对离差 (MAD)
# df.median() 计算每列的中位数
# df.sub(df.median()) 从每列的每个元素中减去该列的中位数
# .abs() 取绝对值
# .median() 再次计算中位数，得到MAD
mad = df.sub(df.median()).abs().median()

# 3. 排序MAD值并选择前N个列
# sort_values(ascending=False) 按降序排列MAD值
# head(1000) 选取前1000个MAD值（即变异性最高的1000列）
# .index 获取这些列的名称
num_cols_to_select = 1000
cols = mad.sort_values(ascending=False).head(num_cols_to_select).index

# 4. 构建包含选定列的新DataFrame
out_df = df[cols]

print(f"\n选定{num_cols_to_select}列后新DataFrame的形状:", out_df.shape)
print("新DataFrame前5行：")
print(out_df.head())

代码解析

df.sub(df.median()): 这一步首先计算DataFrame中每一列的中位数。df.median()会返回一个Series，其索引是原始DataFrame的列名，值是对应列的中位数。然后，df.sub()方法会将DataFrame的每一列与其对应中位数进行逐元素相减。
.abs(): 对上一步得到的结果取绝对值，这是为了计算每个数据点与其中位数的距离，而不考虑方向。
.median(): 再次调用.median()方法，这次是对所有绝对差值计算中位数。这个结果就是每列的MAD值。
mad.sort_values(ascending=False): mad现在是一个Series，其索引是原始列名，值是对应的MAD。sort_values(ascending=False)将其按MAD值从大到小排序。
.head(num_cols_to_select).index: head(num_cols_to_select)选取排序后Series的前num_cols_to_select个元素，这些是MAD值最高的列。.index则提取这些元素的索引，即原始DataFrame中这些列的名称。
out_df = df[cols]: 最后，使用这些选定的列名cols对原始DataFrame df进行列索引，从而创建一个只包含这些高MAD列的新DataFrame out_df。

注意事项与最佳实践

选择N值：选择多少列（num_cols_to_select）取决于具体应用场景和下游任务的需求。这通常需要根据业务理解、模型性能测试或数据可视化来决定。
性能考量：对于非常大的DataFrame（例如，数百万行或数十万列），虽然Pandas的操作已经高度优化，但计算MAD仍然可能消耗一定的内存和时间。确保你的运行环境有足够的资源。
MAD与标准差：如果数据分布近似正态且不含异常值，标准差也是一个有效的变异性度量。然而，在实际数据集中，MAD通常是更稳健的选择。
数据类型：确保DataFrame中的列包含数值型数据，否则MAD计算会失败。在处理前可能需要进行数据清洗和类型转换。
缺失值处理：Pandas的median()方法默认会跳过NaN值。如果你的数据包含缺失值，需要考虑其对MAD计算的影响，可能需要提前进行填充或删除。

总结

通过本教程，我们学习了如何利用Pandas库和中位数绝对离差（MAD）这一稳健统计量，从大型数据集中高效地筛选出最具变异性的列。这种方法在特征选择、数据降维和探索性数据分析中非常有用，尤其适用于那些可能包含异常值的数据集。掌握这一技巧将有助于你更有效地处理高维数据，并为后续的数据建模工作打下坚实基础。

如何合法合规地获取 LoopNet 商业地产数据：爬虫风险警示与替代方案指南

如何正确验证用户输入并构建安全的交互式故事生成器

Python 什么时候该放弃“优雅”追求性能？

Python 加密与哈希的使用边界

dataclass post_init 中如何修改默认参数值