
本文介绍如何用一行简洁的 numpy 代码识别并删除数组中所有方差为零(即所有非 nan 值完全相同)的列,同时正确处理含 nan 的情况。
在数据预处理中,常需剔除无信息量的列——例如全为同一数值(如全为 10)、或仅含缺失值与同一常数的列。这类列的方差为 0,对模型训练无贡献,甚至可能引发数值不稳定。NumPy 提供了高效向量化方案,无需显式循环。
核心方法是利用 np.var() 沿列方向(axis=0)计算方差,并结合布尔索引筛选:
import numpy as np
X = np.array([[1, 10, np.nan, 0],
[2, 10, np.nan, 0],
[3, 10, np.nan, 0]])
# 一步移除零方差列(自动跳过 NaN,仅基于有效值计算方差)
X_filtered = X[:, np.var(X, axis=0, ddof=0) != 0]
print(X_filtered)输出:
[[ 1. nan] [ 2. nan] [ 3. nan]]
✅ 关键说明:
- np.var(X, axis=0) 默认忽略 NaN(需确保使用较新 NumPy 版本;若遇 nan 传播问题,可改用 np.nanvar(X, axis=0) 更显式);
- ddof=0(默认)表示总体方差;若需样本方差,设 ddof=1,但判断是否为 0 时结果一致;
- 该操作不改变原数组,返回视图或副本(取决于底层内存布局),建议显式赋值;
- 零方差列包含:全相同数值列(如第 2 列全为 10)、全 NaN 列(方差为 nan,nan != 0 为 False,故不会被保留——需注意!)。
⚠️ 重要提醒:np.var() 对全 NaN 列返回 nan,而 nan != 0 恒为 False,因此上述代码不会保留全 NaN 列——这通常符合预期。但若需显式控制 NaN 列行为,推荐组合使用:
# 更鲁棒的写法:显式排除全 NaN 列 + 零方差列 valid_mask = ~(np.all(np.isnan(X), axis=0) | (np.nanvar(X, axis=0) == 0)) X_filtered = X[:, valid_mask]
综上,X[:, np.nanvar(X, axis=0) != 0] 是兼顾简洁性、可读性与健壮性的首选方案,适用于绝大多数真实场景的数据清洗任务。










