Pandas DataFrame分组内数值数据标准化：策略与实践

霞舞

发布时间：2025-07-28 15:02:39

688人浏览过

来源于php中文网

原创

pandas dataframe分组内数值数据标准化：策略与实践

本文旨在解决在Pandas DataFrame中对特定分组内的数值列进行标准化时遇到的挑战。我们将探讨直接对DataFrameGroupBy对象应用StandardScaler失败的原因，并提供两种有效的解决方案：一种是迭代处理每个分组，另一种是利用groupby().apply()函数实现高效的分组内标准化。同时，文章还将区分数值标准化与分类数据编码的不同应用场景。

引言：分组内数值标准化的问题

在数据预处理阶段，我们经常需要对数值特征进行标准化，以消除量纲差异，确保模型训练的稳定性和性能。当数据包含分类特征，并且我们希望根据这些分类特征进行分组，然后对每个分组内的数值数据独立进行标准化时，问题便会变得复杂。直接将sklearn.preprocessing.StandardScaler应用于Pandas的DataFrameGroupBy对象，通常会导致错误，因为StandardScaler期望处理纯数值型数据，而DataFrameGroupBy对象本身是一个抽象的迭代器，且其内部可能仍包含非数值列。

考虑以下示例DataFrame：

import pandas as pd
from sklearn.preprocessing import StandardScaler

df = pd.DataFrame({
    "cost": [30, 15, 100, 65, 75, 55, 29, 45],
    "sales": [80, 88, 70, 80, 999, 70, 8, 95],
    "da_value": ["low", "low", "high", "medium", "high", "medium", "low", "medium"],
    "names": ["Jo", "Andrew", "AI", "Michael", "Nikola", "Jim", "Bojan", "Vurce"]
})

print(df)

输出：

   cost  sales da_value    names
0    30     80      low       Jo
1    15     88      low   Andrew
2   100     70     high       AI
3    65     80   medium  Michael
4    75    999     high   Nikola
5    55     70   medium      Jim
6    29      8      low    Bojan
7    45     95   medium    Vurce

如果尝试直接对df.groupby("da_value")的结果应用StandardScaler.fit_transform()，例如：

# 错误尝试
# df_dast = df.groupby("da_value")
# scaler = StandardScaler()
# df_dast_scaled = scaler.fit_transform(df_dast)

将会遇到类似ValueError: could not convert string to float: 'high'的错误。这表明StandardScaler尝试处理了非数值列（如da_value），或者它无法直接操作DataFrameGroupBy对象。此外，即使移除非数值列，DataFrameGroupBy对象本身也无法直接作为fit_transform的输入，因为它不是一个单一的二维数组。

解决方案一：迭代处理每个分组

一种直观的方法是遍历DataFrameGroupBy对象生成的每个分组（它们是独立的DataFrame），对每个分组内的数值列进行标准化，然后将结果重新组合。

# 识别数值列和非数值列
numerical_cols = df.select_dtypes(include=['number']).columns.tolist()
non_numerical_cols = df.select_dtypes(exclude=['number']).columns.tolist()

scaled_dfs = []
for name, group in df.groupby("da_value"):
    # 创建StandardScaler实例
    scaler = StandardScaler()

    # 仅对分组内的数值列进行标准化
    scaled_data = scaler.fit_transform(group[numerical_cols])

    # 将标准化后的数据转换回DataFrame，并保留原始索引
    scaled_group_df = pd.DataFrame(scaled_data, columns=numerical_cols, index=group.index)

    # 将非数值列与标准化后的数值列合并
    # 确保合并时保留分组列本身，如果需要的话
    # 这里我们直接将原始非数值列与标准化后的数值列拼接
    combined_group_df = pd.concat([group[non_numerical_cols], scaled_group_df], axis=1)

    scaled_dfs.append(combined_group_df)

# 将所有处理过的分组DataFrame拼接回一个完整的DataFrame
df_standardized_iterative = pd.concat(scaled_dfs).sort_index()

print("\n--- 迭代处理后的DataFrame ---")
print(df_standardized_iterative)

这种方法清晰地展示了每个分组是如何被独立处理的，但对于大型数据集而言，可能效率不高。

解决方案二：利用 groupby().apply() 实现高效分组内标准化（推荐）

Pandas的groupby().apply()方法提供了一种更简洁、更高效的方式来对每个分组应用自定义函数。我们可以定义一个函数，该函数接收一个分组DataFrame作为输入，执行标准化操作，并返回处理后的分组DataFrame。

def standardize_numerical_columns_in_group(group_df):
    """
    对传入的DataFrame（一个分组）中的数值列进行标准化。
    """
    scaler = StandardScaler()

    # 识别当前分组中的数值列
    current_numerical_cols = group_df.select_dtypes(include=['number']).columns.tolist()
    # 识别当前分组中的非数值列
    current_non_numerical_cols = group_df.select_dtypes(exclude=['number']).columns.tolist()

    if not current_numerical_cols:
        # 如果没有数值列，直接返回原始分组
        return group_df

    # 对数值列进行fit_transform
    scaled_numerical_data = scaler.fit_transform(group_df[current_numerical_cols])

    # 将标准化后的数据转换为DataFrame，并保持原始索引
    scaled_df_part = pd.DataFrame(scaled_numerical_data, 
                                  columns=current_numerical_cols, 
                                  index=group_df.index)

    # 将非数值列与标准化后的数值列合并
    # 确保原始列的顺序和类型得到保留
    # 使用pd.concat并指定轴为1，确保列的正确拼接
    # 保持原始DataFrame的列顺序，将非数值列放在前面

    # 首先获取原始DataFrame的列顺序
    original_cols_order = df.columns.tolist()

    # 创建一个包含非数值列和标准化数值列的新DataFrame
    recombined_df = pd.concat([group_df[current_non_numerical_cols], scaled_df_part], axis=1)

    # 按照原始DataFrame的列顺序重新排列列
    return recombined_df[original_cols_order]

# 应用groupby().apply()
# group_keys=False 避免将分组键作为新的索引层级
df_standardized_apply = df.groupby('da_value', group_keys=False).apply(standardize_numerical_columns_in_group)

print("\n--- 使用groupby().apply() 标准化后的DataFrame ---")
print(df_standardized_apply)

代码解释：

Interior AI

AI室内设计，上传室内照片自动帮你生成多种风格的室内设计图

下载

standardize_numerical_columns_in_group(group_df): 这个函数接收一个DataFrame（代表一个分组）。
group_df.select_dtypes(include=['number']): 动态识别当前分组中的所有数值列。
scaler.fit_transform(): 对每个分组独立进行fit_transform，这意味着每个分组都有自己的均值和标准差。
pd.DataFrame(scaled_numerical_data, columns=current_numerical_cols, index=group_df.index): 将标准化后的NumPy数组转换回DataFrame，并确保保留原始的索引，这对于后续的拼接至关重要。
pd.concat([...], axis=1): 将标准化后的数值列与原始的非数值列（如da_value和names）重新拼接起来。
group_keys=False: 这是一个重要的参数，它阻止groupby().apply()将分组键（这里是da_value）作为结果DataFrame的一个新的索引层级，使输出更扁平化。
recombined_df[original_cols_order]: 确保最终输出的列顺序与原始DataFrame保持一致，提高可读性。

这种方法不仅代码更简洁，而且在性能上也通常优于手动迭代，因为它在C语言级别进行了优化。

区分：分类数据编码（One-Hot Encoding）

原始问题中提及了使用pd.get_dummies进行One-Hot Encoding。需要明确的是，One-Hot Encoding (pd.get_dummies) 和数值特征标准化 (StandardScaler) 是两种不同的数据预处理技术，解决不同的问题：

数值特征标准化：目的是消除数值特征的量纲差异，使其具有相似的尺度，这对于许多机器学习算法（如梯度下降、SVM、K-Means等）至关重要。它作用于已有的数值列。
分类数据编码：目的是将非数值的分类特征转换为数值表示，以便机器学习模型能够处理它们。它作用于分类列，将其转换为新的数值列（通常是二进制的0/1列）。

例如，对da_value列进行One-Hot Encoding：

df_encoded = pd.get_dummies(df, columns=['da_value'], prefix='da_value')
print("\n--- One-Hot Encoding 后的DataFrame ---")
print(df_encoded)

输出：

   cost  sales    names  da_value_high  da_value_low  da_value_medium
0    30     80       Jo              0             1                0
1    15     88   Andrew              0             1                0
2   100     70       AI              1             0                0
3    65     80  Michael              0             0                1
4    75    999   Nikola              1             0                0
5    55     70      Jim              0             0                1
6    29      8    Bojan              0             1                0
7    45     95    Vurce              0             0                1

可以看到，da_value列被转换成了三列新的数值列。如果在此基础上再进行标准化，StandardScaler会处理所有的数值列，包括原始的cost、sales以及新生成的da_value_high、da_value_low、da_value_medium。这与我们最初“在分组内标准化现有数值列”的目标不同。

因此，在进行数据预处理时，理解每种技术的目的至关重要，以避免混淆和错误应用。

注意事项与总结

选择正确的列：在应用任何转换之前，务必明确哪些列是数值型需要标准化，哪些是分类型需要编码或保留。
保留非数值列：在分组内标准化时，确保非数值（如分组键、标识符）列能够被正确地保留并重新合并到结果DataFrame中。
索引的重要性：在处理分组数据并重新组合时，保持原始索引的完整性至关重要，以确保数据能够正确地对齐。
group_keys=False：在apply操作中，使用此参数可以避免生成多层索引，使结果DataFrame更易于处理。
性能考量：对于非常大的数据集，apply通常是比手动迭代更优的选择。然而，如果自定义函数内部操作非常复杂，也可能影响性能，此时需要进行性能分析。
选择合适的缩放器：除了StandardScaler（Z-score标准化），sklearn.preprocessing还提供了MinMaxScaler（Min-Max缩放）、RobustScaler（对异常值更鲁棒）等，应根据数据分布和模型需求选择最合适的缩放器。

通过本文的讲解，您应该能够清晰地理解如何在Pandas DataFrame中实现高效且正确的分组内数值数据标准化，并区分其与分类数据编码的不同应用场景。掌握这些技术将大大提升您在数据预处理阶段的效率和准确性。

Python3.9如何切换成中文界面_Python 3.9版本中文界面配置

Lambda在Python中_Python编程语言中lambda关键字的功能总结

Python转大模型工程师教程_新一代AI岗位解析

python书上的动物是啥

Python自然语言处理教程_文本分析与情感识别实战

相关专题

C语言变量命名

c语言变量名规则是：1、变量名以英文字母开头；2、变量名中的字母是区分大小写的；3、变量名不能是关键字；4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容，供大家免费下载使用。

387

2023.06.20

c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识，应用十分广泛，本专题为大家c语言入门自学零基础的相关文章，以及相关课程，感兴趣的朋友千万不要错过了。

611

2023.07.25

c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

351

2023.08.02

c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念，用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等，而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

256

2023.08.09

c语言random函数用法

c语言random函数用法：1、random.random，随机生成（0,1）之间的浮点数；2、random.randint，随机生成在范围之内的整数，两个参数分别表示上限和下限；3、random.randrange，在指定范围内，按指定基数递增的集合中获得一个随机数；4、random.choice，从序列中随机抽选一个数；5、random.shuffle，随机排序。

597

2023.09.05

c语言const用法

const是关键字，可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍：1、声明常量，const关键字可用于声明常量，常量的值在程序运行期间不可修改，常量可以是基本数据类型，如整数、浮点数、字符等，也可是自定义的数据类型；2、函数参数中的const修饰符，const关键字可用于函数的参数中，表示该参数在函数内部不可修改等等。

523

2023.09.20

c语言get函数的用法

get函数是一个用于从输入流中获取字符的函数。可以从键盘、文件或其他输入设备中读取字符，并将其存储在指定的变量中。本文介绍了get函数的用法以及一些相关的注意事项。希望这篇文章能够帮助你更好地理解和使用get函数。

639

2023.09.20

c数组初始化的方法

c语言数组初始化的方法有直接赋值法、不完全初始化法、省略数组长度法和二维数组初始化法。详细介绍：1、直接赋值法，这种方法可以直接将数组的值进行初始化；2、不完全初始化法，。这种方法可以在一定程度上节省内存空间；3、省略数组长度法，这种方法可以让编译器自动计算数组的长度；4、二维数组初始化法等等。

599

2023.09.22

Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践，涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC（Unary/Server/Client/Bidirectional）、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例，帮助学习者掌握使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系，适用于微服务与内部系统通信场景。

2026.01.15

热门下载

网站特效

网站源码

网站素材

前端模板