Pandas中基于组的灵活采样：实现不同n值与动态替换策略

碧海醫心

发布时间：2025-10-16 10:28:23

374人浏览过

来源于php中文网

原创

Pandas中基于组的灵活采样：实现不同n值与动态替换策略

本文深入探讨了在pandas中对大型数据集进行分组采样的高效方法。针对传统`groupby().sample()`无法满足各组不同采样数量`n`以及动态替换策略（`replace=true/false`）的需求，我们提出并详细解释了如何利用`groupby().apply()`结合自定义函数来实现这一复杂采样逻辑，显著提升了处理效率和代码可读性，适用于大规模数据场景。

Pandas分组采样：实现动态n值与替换策略

在数据分析中，我们经常需要对数据集进行分组（groupby）操作，并从每个组中抽取一定数量的样本。然而，当每个组所需的样本数量n不同，并且采样是否需要替换（replace）也依赖于组的原始大小时，标准的df.groupby("col").sample(n=...)方法就显得力不从心了。对于大型数据集，简单的循环遍历和过滤操作会导致性能瓶颈。本教程将介绍一种高效且灵活的解决方案，利用groupby().apply()结合自定义函数来解决这一挑战。

挑战：动态采样数量与替换策略

假设我们有一个包含数千万甚至上亿条记录的大型数据集df_main，其中包含一个分组列a（具有大量唯一值，例如10万个）。我们还有一个辅助数据集df_sample_counts，它指定了列a中每个唯一值应该采样多少条记录。此外，采样规则要求：

如果组的原始记录数小于或等于所需的采样数n，则使用replace=True进行采样，以确保能达到指定的n（允许重复）。
如果组的原始记录数大于所需的采样数n，则使用replace=False进行采样，以获取尽可能多的唯一记录。

传统的df.groupby("a").sample(n=1)只能对所有组应用相同的n值。而通过循环遍历每个组并单独采样，虽然能实现功能，但在处理大数据集时效率低下，无法满足生产环境的需求。

解决方案：groupby().apply()与自定义函数

Pandas的groupby().apply()方法为执行复杂的组级操作提供了强大的灵活性。我们可以定义一个自定义函数，该函数将接收每个分组的DataFrame作为输入，并在其中实现动态采样逻辑。

1. 准备数据

首先，我们创建两个示例DataFrame，模拟原始数据和采样数量配置。

import pandas as pd
import numpy as np

# 模拟采样数量配置 DataFrame (df1)
data_counts = {'a': [1, 2, 3], 'count': [1, 3, 2]}
df1 = pd.DataFrame(data_counts)
print("df1 (采样数量配置):")
print(df1)

print("-" * 30)

# 模拟原始数据 DataFrame (df2)
data_original = {'a': [1, 1, 1, 2, 2, 3, 3], 'x': ['a', 'b', 'c', 'd', 'e', 'f', 'g']}
df2 = pd.DataFrame(data_original)
print("df2 (原始数据):")
print(df2)

输出示例:

知了追踪

AI智能信息助手，智能追踪你的兴趣资讯

下载

df1 (采样数量配置):
   a  count
0  1      1
1  2      3
2  3      2
------------------------------
df2 (原始数据):
   a  x
0  1  a
1  1  b
2  1  c
3  2  d
4  2  e
5  3  f
6  3  g

2. 构建采样数量查找字典

为了在自定义函数中高效地获取每个组的采样数量n，我们将df1转换为一个字典，其中键是分组列a的值，值是对应的采样数量count。

sample_counts_dict = df1.set_index("a")["count"].to_dict()
print("\n采样数量查找字典:")
print(sample_counts_dict)

输出示例:

采样数量查找字典:
{1: 1, 2: 3, 3: 2}

3. 定义自定义采样函数

这个函数将是解决方案的核心。它接收一个分组的DataFrame (df_group)，查找字典 (dct) 和一个随机种子 (random_state)。

def get_sample(df_group, dct, random_state):
    # 获取当前组的分组键 'a' 的值
    # df_group["a"].iat[0] 比 df_group["a"].iloc[0] 更快，因为它直接访问底层数组
    group_key = df_group["a"].iat[0]

    # 从字典中获取当前组的采样数量 n
    n_samples = dct.get(group_key)

    # 如果字典中没有对应的采样数量，则不进行采样，返回None
    if n_samples is None:
        return None # 或返回一个空的DataFrame，取决于具体需求

    # 根据组的实际大小和所需的采样数量 n_samples 决定 replace 参数
    # 如果组的大小小于或等于 n_samples，则允许替换 (replace=True)
    # 否则，不允许替换 (replace=False)
    replace_flag = len(df_group) <= n_samples

    # 执行采样操作
    return df_group.sample(n=n_samples, random_state=random_state, replace=replace_flag)

函数逻辑详解:

group_key = df_group["a"].iat[0]: 在apply操作中，df_group是原始DataFrame中属于某个特定组的所有行。iat[0]用于高效地获取该组的第一个（也是唯一的）a值，即当前组的标识。
n_samples = dct.get(group_key): 使用get()方法从预先构建的sample_counts_dict中安全地获取当前组所需的采样数量。如果group_key不存在于字典中，get()会返回None。
if n_samples is None: return None: 处理df2中存在但df1中未指定采样数量的组。在这种情况下，我们选择不返回任何样本。
replace_flag = len(df_group)
df_group.sample(...): 对当前组的DataFrame执行采样操作，并传入计算出的n_samples、random_state和replace_flag。

4. 应用自定义函数进行分组采样

现在，我们将自定义函数get_sample应用到df2的groupby("a")结果上。

# 使用 groupby().apply() 进行分组采样
# group_keys=False 可以避免在结果中添加分组键作为额外的索引层，提高效率
sampled_df = df2.groupby("a", group_keys=False).apply(
    get_sample,
    dct=sample_counts_dict,
    random_state=6 # 保持随机性可复现
)

print("\n最终采样结果:")
print(sampled_df)

输出示例:

最终采样结果:
   a  x
0  1  a
3  2  d
4  2  e
4  2  e
5  3  f
6  3  g

从结果可以看出：

对于a=1，df1要求采样1个，df2有3个，所以采样1个（replace=False）。
对于a=2，df1要求采样3个，df2有2个，所以采样3个（replace=True，导致e重复）。
对于a=3，df1要求采样2个，df2有2个，所以采样2个（replace=True或False都可以，此处len(df_group)

注意事项与性能考量

group_keys=False: 在groupby().apply()中设置group_keys=False是一个良好的实践，尤其是在你不需要分组键作为最终DataFrame索引的一部分时。它可以减少Pandas在内部处理索引的开销，从而提高性能。
random_state: 使用random_state参数可以确保你的采样结果是可复现的。在调试或需要一致结果时，这是一个非常重要的参数。
apply()的性能: 尽管apply()比显式Python循环更高效，但它仍然在Python层面对每个组执行操作。对于极端庞大的数据集和复杂的操作，如果能找到完全向量化的Pandas或NumPy函数替代，性能会更好。然而，对于这种需要动态逻辑（如条件判断replace参数）的场景，apply()通常是最佳的折衷方案。
内存使用: 对于非常大的数据集，如果每个组都很大，apply()可能会在内存中加载整个组。请确保你的系统有足够的内存来处理。
处理缺失的组配置: dct.get(group_key)和随后的if n_samples is None: return None有效地处理了原始数据中存在但df1中没有指定采样数量的组。你可以根据业务需求选择返回空DataFrame或跳过这些组。

总结

通过结合使用Pandas的groupby().apply()方法和精心设计的自定义函数，我们能够优雅且高效地解决在大型数据集中进行复杂分组采样的问题。这种方法不仅能够灵活地处理每个组不同的采样数量n，还能根据组的实际大小动态调整采样时的替换策略，从而满足多样化的数据分析需求，同时保持代码的清晰性和可维护性。

Python流程控制优化_复杂逻辑拆解方法【指导】

Python日志级别设计_信息分类解析【教程】

Python Pillow 导入错误的完整解决方案

Python生成器系统学习路线第247讲_核心原理与实战案例详解【教程】

如何在Python中将列表项按字母顺序编号（a.、b.、c.……）