如何基于分组的众数填充Pandas DataFrame中的缺失值

花韻仙語

发布时间：2026-01-10 12:16:05

394人浏览过

来源于php中文网

原创

如何基于分组的众数填充Pandas DataFrame中的缺失值

本文介绍如何在pandas中按某一列（如col_b）分组，用每组内目标列（如col_a）的众数（最频繁值）填充该组内的nan值，避免手动构建映射表，实现简洁、高效、可复用的缺失值插补。

在数据预处理中，针对分类或离散型特征的缺失值，常需采用“按业务逻辑分组后取众数填充”的策略——例如：同一用户类型（col_B）下，其偏好等级（col_A）的常见取值即为该类型的合理默认值。Pandas 提供了 groupby().transform() 与 fillna() 的组合方案，可直接完成这一任务，无需中间DataFrame或显式循环。

核心思路是：对 col_A 按 col_B 分组后，对每组调用自定义函数，先计算该组非空值的众数（Series.mode()），再用该众数填充组内所有NaN。transform 确保返回结果与原DataFrame等长且对齐，天然适配赋值操作。

以下是完整实现代码：

import pandas as pd
import numpy as np

# 构造示例数据
df = pd.DataFrame({
    'col_A': [8, 7, 20, np.nan, 8, 9, 37, np.nan, np.nan],
    'col_B': [31, 30, 83, 5, 31, 34, 158, 5, 30]
})

# 定义安全众数填充函数（兼容空组或无众数情况）
def impute_mode(series):
    mode_vals = series.mode()
    if not mode_vals.empty:
        return series.fillna(mode_vals.iloc[0])
    else:
        return series.fillna(series.dropna().iloc[0] if not series.dropna().empty else np.nan)

# 执行分组众数填充（原地更新或新建列均可）
df['col_A_filled'] = df.groupby('col_B')['col_A'].transform(impute_mode)

print(df)

输出示例：

Sider

多功能AI浏览器助手，帮助用户进行聊天、写作、阅读、翻译等

下载

   col_A  col_B  col_A_filled
0  8.0     31           8.0
1  7.0     30           7.0
2 20.0     83          20.0
3  NaN      5           NaN   # 注意：若col_B=5时col_A全为NaN，则mode为空，此处保持NaN（见下方说明）
4  8.0     31           8.0
5  9.0     34           9.0
6 37.0    158          37.0
7  NaN      5           NaN
8  NaN     30           7.0

✅ 关键优势：

一行 transform 调用完成全部填充，逻辑清晰、性能优异；
自动对齐索引，无需担心分组顺序或长度不匹配；
函数内嵌容错处理（如空众数、全NaN组），提升鲁棒性。

⚠️ 注意事项：

Series.mode() 返回 Series，需 .iloc[0] 取首个众数值（多众数时取出现最早的）；
若某 col_B 组内 col_A 全为 NaN，mode() 返回空Series，此时应降级处理（如填全局众数、均值，或保留NaN）；
对于含大量重复分组的大数据集，可提前用 df.groupby('col_B')['col_A'].agg(pd.Series.mode) 预计算众数映射字典以进一步优化性能。

综上，groupby(...).transform(...) 是Pandas中实现“条件众数填充”的标准、推荐方式，兼顾可读性、简洁性与工程可靠性。

PythonExcel自动化教程_openpyxl与xlrd操作技巧

如何用Python高效提取CSV数据并自动导入Word表格

python书上的动物是啥

Python文本处理教程_字符串清洗与正则表达式应用

Python回归分类教程_常见算法原理与实现

相关标签:

大数据 pandas 循环 transform

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何在Python中高效判断字母序列是否为真实单词的前缀下一篇：python闭包详解（实例）

作者最新文章

如何将 Pandas DataFrame 正确转换为单层字典用于列名映射