使用Pandas高效选择高离散度（MAD）的DataFrame列

碧海醫心

发布时间：2025-11-26 12:03:06

330人浏览过

来源于php中文网

原创

使用Pandas高效选择高离散度（MAD）的DataFrame列

本教程将详细介绍如何利用pandas库计算dataframe中各列的中位数绝对离差（mad），并据此筛选出具有最高mad值的指定数量的列，从而在新dataframe中保留数据变异性最显著的特征。这种方法在处理大规模数据集时尤为高效，且对异常值具有较好的鲁棒性。

引言：中位数绝对离差 (MAD) 及其重要性

在数据分析中，衡量数据离散程度是理解数据集特征的关键一步。常见的离散度指标包括标准差和方差。然而，这些指标对异常值非常敏感。当中位数绝对离差（Median Absolute Deviation, MAD）则提供了一种更稳健的替代方案。MAD定义为数据集中所有数据点与其自身中位数之差的绝对值的中位数。它能够有效反映数据的集中趋势和变异性，同时减少极端值的影响，特别适用于包含噪声或异常值的数据集。

在处理拥有大量特征（列）的数据集时，我们经常需要识别并保留那些信息量更大、变异性更显著的特征。例如，在一个包含20,000列的DataFrame中，如果每列代表一个特征，而我们希望选择其中2,000个最具代表性或区分度的特征，MAD便是一个非常有效的筛选标准。

核心方法：计算与筛选

要从一个大型Pandas DataFrame中选出具有最高MAD值的列，我们可以遵循以下步骤：

计算每列的中位数绝对离差 (MAD)：对于DataFrame中的每一列，首先计算其所有值的中间数，然后计算每个值与该中位数之差的绝对值，最后再计算这些绝对差值的中位数。
排序MAD值：将所有列的MAD值按降序排列，以便识别出离散度最高的列。
选取排名靠前的列：根据需要，选择MAD值排名靠前的N个列的名称（索引）。
构建新DataFrame：使用这些选定的列名称，从原始DataFrame中提取数据，生成一个新的DataFrame。

示例代码

以下代码演示了如何在Pandas DataFrame中实现上述过程：

import pandas as pd
import numpy as np

# 1. 创建一个模拟的DataFrame
# 假设有1000行和20000列，列名为0到19999
rng = np.random.default_rng(seed=2024)
df = pd.DataFrame(rng.random((1000, 20000)))

print("原始DataFrame的形状:", df.shape)
print("原始DataFrame的前5行:\n", df.head())

# 2. 计算每列的中位数绝对离差 (MAD)
# df.median() 计算每列的中位数
# df.sub(df.median()) 计算每个元素与其列中位数的差
# .abs() 取绝对值
# .median() 再次计算中位数，得到每列的MAD
mad = df.sub(df.median()).abs().median()

# 3. 根据MAD值降序排序，并选取前N个列的索引
# 假设我们想选择MAD值最高的1000列
num_cols_to_select = 1000
cols = mad.sort_values(ascending=False).head(num_cols_to_select).index

# 4. 使用选定的列索引创建新的DataFrame
out = df[cols]

print("\n筛选后DataFrame的形状:", out.shape)
print("筛选后DataFrame的前5行:\n", out.head())

代码详解：

df.sub(df.median()): 这一步计算了DataFrame中每个元素与其所在列中位数的差值。df.median()会返回一个Series，其中包含每列的中位数。Pandas的广播机制使得这个Series能够正确地与DataFrame进行逐列相减。
.abs(): 对上一步的结果取绝对值，得到每个元素与中位数之间距离的绝对值。
.median(): 再次计算中位数，这次是对每个列中的绝对差值进行计算，从而得到该列的MAD。
mad.sort_values(ascending=False): 将计算出的所有列的MAD值进行降序排序。ascending=False确保MAD值最高的列排在前面。
.head(num_cols_to_select): 从排序后的MAD Series中选取前num_cols_to_select个值，即MAD最高的那些列。
.index: 获取这些选定MAD值的对应列的名称（即DataFrame的列索引）。
out = df[cols]: 使用这些选定的列名称作为索引，从原始DataFrame df 中提取数据，创建一个新的DataFrame out。

注意事项与最佳实践

MAD与标准差的对比：

造好物
一站式AI造物设计平台

下载
- 鲁棒性：MAD对异常值具有更高的鲁棒性。如果数据中存在极端的离群点，标准差会受到显著影响而夸大数据的离散程度，而MAD则能提供更真实的变异性度量。
- 适用场景：当数据分布接近正态分布且无明显异常值时，标准差可能更常用。但当数据分布偏斜或含有异常值时，MAD是更好的选择。
性能考虑：
- 对于非常大的DataFrame（例如，行数和列数都非常多），计算MAD可能需要一定的计算资源。Pandas的向量化操作通常效率很高，但仍需注意内存消耗和处理时间。
- 如果需要处理的数据量极其庞大，可以考虑使用Dask等分布式计算库来并行处理。
选择列的数量 (N)：
- num_cols_to_select 参数的设置取决于具体的应用场景和数据分析目标。通常，这个值会根据原始列的总数和希望保留的信息量来确定。
- 可以通过可视化MAD分布图，或结合领域知识来辅助确定最佳的N值。
数据类型：
- 确保DataFrame中的列包含数值类型数据，因为MAD计算是基于数值的。如果存在非数值列，需要先进行数据清洗或类型转换。

总结

通过本教程，我们学习了如何利用Pandas库高效地计算DataFrame中各列的中位数绝对离差（MAD），并以此作为标准筛选出离散度最高的指定数量的列。这种方法在特征选择、降维以及数据探索中具有重要意义，尤其是在面对包含大量潜在特征且可能存在异常值的数据集时，MAD提供了一个稳健而有效的解决方案。掌握这一技巧，将有助于您更深入地理解数据并提取其核心信息。

如何正确将循环结果逐行写入文件而不丢失数据

如何正确将循环结果批量写入文件而不丢失数据

如何将嵌套列表数据反序列化为 Pydantic 模型

如何在 QML 中高效渲染带层级结构的 SQL 数据（支持展开/折叠与多选）

如何在 QML 中高效渲染带层级关系的 SQL 树形数据（支持展开/折叠与多选）