
本文详细介绍了如何在pandas中对大型数据集进行高效的分组抽样,特别是当每个分组需要不同数量的样本,并且需要根据分组大小动态调整是否允许重复抽样(`replace`参数)时。通过构建一个自定义函数并结合`groupby().apply()`方法,可以实现比传统循环更优的性能和更灵活的控制,确保抽样逻辑的准确性和效率。
在数据分析和机器学习任务中,我们经常需要从数据集中抽取样本。当数据集非常庞大,并且需要根据某个或多个列进行分组,然后对每个分组执行抽样时,情况会变得复杂。更进一步,如果每个分组所需的样本数量不同,并且需要根据分组的实际大小动态决定是否允许重复抽样,那么传统的groupby().sample()方法就显得力不从心。
Pandas提供了DataFrame.groupby().sample(n=...)方法,可以方便地对每个分组抽取固定数量的样本。例如:
df.groupby("a").sample(n=1, random_state=1)然而,这个方法无法直接处理每个分组需要不同n值的情况。一种常见的、但效率低下的做法是遍历每个分组,然后单独进行过滤和抽样:
# 假设 'm_values' 是一个字典或列表,包含每个组 'a' 对应的样本数量
for group_val, m in m_values.items():
filter_df = df.loc[(df['a'] == group_val)]
# ... 进行抽样,并根据条件设置 replace 参数
# ... 最后将结果合并这种基于循环的方法在处理拥有大量唯一分组(例如10万个)的大型数据集(例如9000万行)时,会因为频繁的数据过滤、创建子DataFrame以及最终的合并操作而导致性能瓶颈。
此外,关于replace参数的动态设置也是一个关键点:
Pandas的groupby().apply()方法允许我们将一个自定义函数应用到每个分组上,从而实现复杂的、组级别的数据操作。这是解决上述问题的理想方案,因为它能将Python循环的逻辑“推”到C层面执行,从而获得更好的性能。
首先,我们需要一个机制来告诉每个分组应该抽取多少样本。这通常可以通过一个包含分组键和对应样本数量的DataFrame来构建,并将其转换为字典,以便快速查找。
假设我们有一个DataFrame df1,其中包含每个组a所需的样本数量:
import pandas as pd
# df1: 定义每个组 'a' 对应的样本数量
df1 = pd.DataFrame({
'a': [1, 2, 3],
'count': [1, 3, 2]
})
# 将 df1 转换为字典,方便查找
sample_counts_map = df1.set_index("a")["count"].to_dict()
# sample_counts_map -> {1: 1, 2: 3, 3: 2}接下来,我们创建一个函数,该函数将作为apply()的参数,对每个分组DataFrame进行操作。这个函数需要接收分组DataFrame、样本数量映射字典以及随机种子作为参数。
def get_sample(group_df, sample_counts_dict, random_state):
"""
对每个分组DataFrame进行抽样。
根据分组键从 sample_counts_dict 获取所需的样本数量,
并根据分组大小动态调整 replace 参数。
Args:
group_df (pd.DataFrame): 当前分组的DataFrame。
sample_counts_dict (dict): 包含每个组 'a' 对应样本数量的字典。
random_state (int): 随机种子,用于保证抽样结果的可复现性。
Returns:
pd.DataFrame: 抽样后的DataFrame,如果该组不需要抽样则返回 None。
"""
# 获取当前分组的键值 (例如 'a' 列的值)
group_key = group_df["a"].iat[0] # iat[0] 效率更高,因为我们知道组内 'a' 值都相同
# 从映射字典中获取该组所需的样本数量
n_samples = sample_counts_dict.get(group_key)
# 如果该组的键不在映射字典中,或者 n_samples 为 None,则不进行抽样
if n_samples is None:
return None
# 动态设置 replace 参数
# 如果分组的实际记录数小于或等于所需样本数 n_samples,则必须允许重复抽样 (replace=True)
# 否则,如果分组记录数大于 n_samples,则不允许重复抽样 (replace=False)
allow_replace = len(group_df) <= n_samples
# 执行抽样
return group_df.sample(n=n_samples, random_state=random_state, replace=allow_replace)最后,我们将这个自定义函数应用到原始DataFrame的groupby对象上。
# df2: 原始数据,待抽样
df2 = pd.DataFrame({
'a': [1, 1, 1, 2, 2, 3, 3],
'x': ['a', 'b', 'c', 'd', 'e', 'f', 'g']
})
# 使用 groupby().apply() 进行抽样
# group_keys=False 可以避免在结果中添加分组键作为索引,提高性能
sampled_df = df2.groupby("a", group_keys=False).apply(
get_sample,
sample_counts_dict=sample_counts_map,
random_state=6
)
print(sampled_df)输出结果:
a x 0 1 a 3 2 d 4 2 e 4 2 e 5 3 f 6 3 g
从结果可以看出:
这完美地实现了我们动态抽样的需求。
通过利用Pandas的groupby().apply()方法结合一个精心设计的自定义抽样函数,我们可以高效地解决大型数据集上复杂的分组抽样问题。这种方法不仅能够灵活地为每个分组指定不同的样本数量,还能根据分组的实际大小智能地调整是否允许重复抽样,从而在保证数据质量的同时,显著提升处理效率。
以上就是Pandas大数据集分组抽样:灵活控制每组样本量与替换行为的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号