使用 Pandas 和 NumPy 在 Group 内添加数据

碧海醫心

发布时间：2025-08-24 21:26:13

705人浏览过

来源于php中文网

原创

使用 pandas 和 numpy 在 group 内添加数据

本文档旨在提供一种高效的方法，利用 Pandas 和 NumPy，在 Pandas DataFrame 的 Group 内，将每一行的数据添加到 Group 内的每一行。这种操作在数据分析中经常遇到，例如在赛马数据中，需要将每匹马的信息添加到同一场比赛的其他马匹的信息中。本文将提供详细的代码示例和解释，帮助读者理解和应用该方法。

问题描述

假设我们有一个包含赛马数据的 DataFrame，其中数据按 raceId 分组。我们希望将同一场比赛中每匹马的特定数据（例如 horseId、position、weight）添加到该场比赛的其他所有马匹的数据中。最终，DataFrame 的每一行都包含该场比赛中所有马匹的相关信息。

解决方案

以下是如何使用 Pandas 和 NumPy 实现此目标的步骤：

1. 导入必要的库

首先，导入 Pandas 和 NumPy 库：

import pandas as pd
import numpy as np

2. 定义 roll 函数

定义一个名为 roll 的函数，该函数接受一个 DataFrame Group 作为输入，并使用 NumPy 滚动和索引值。此函数将 DataFrame 转换为 NumPy 数组，然后使用 NumPy 的高级索引功能来创建所有可能的行组合。最后，将结果转换回 DataFrame，并添加适当的列名。

def roll(g):
    a = g.to_numpy()
    x = np.arange(len(a))
    return pd.DataFrame(a[((x[:,None] + x)%len(a)).ravel()].reshape(len(a), -1),
                        index=g.index,
                        columns=[f'{c}_{i+1}' for i in x for c in g.columns])

代码解释:

LANUX蓝脑商务网站系统

LANUX V1.0 蓝脑商务网站系统适用于网店、公司宣传自己的品牌和产品。系统在代码、页面方面设计简约，浏览和后台管理操作效率高。此版本带可见即可得的html编辑器, 方便直观添加和编辑要发布的内容。安装： 1.解压后，更换logo、分类名称、幻灯片的图片及名称和链接、联系我们等等页面。 2.将dbconfig.php里面的数据库配置更改为你的mysql数据库配置 3.将整个文件夹上传至

下载

g.to_numpy(): 将 DataFrame Group 转换为 NumPy 数组，以便使用 NumPy 的高效操作。
np.arange(len(a)): 创建一个从 0 到 Group 长度的数组，用于后续的索引操作。
((x[:,None] + x)%len(a)).ravel(): 这是核心部分，它使用 NumPy 的广播和取模操作来生成所有可能的行索引组合。
- x[:,None]：将 x 转换为列向量。
- x[:,None] + x：将列向量 x 与行向量 x 相加，得到一个二维数组，其中每个元素 (i, j) 的值为 i + j。
- %len(a)：对每个元素进行取模操作，确保索引值在 Group 长度范围内。
- .ravel()：将二维数组展平为一维数组，包含所有滚动后的索引。
a[((x[:,None] + x)%len(a)).ravel()].reshape(len(a), -1): 使用生成的索引从原始 NumPy 数组 a 中选择相应的行，并将其重塑为 DataFrame 的形状。
pd.DataFrame(...): 将结果转换为 Pandas DataFrame。
columns=[f'{c}_{i+1}' for i in x for c in g.columns]: 为新的 DataFrame 列添加后缀，以便区分不同的马匹数据。

3. 分组和应用 roll 函数

使用 Pandas 的 groupby 方法按 meetingId 和 raceId 列对 DataFrame 进行分组。然后，使用 apply 方法将 roll 函数应用于每个 Group。

cols = ['meetingId', 'raceId']

out = (data_orig_df.groupby(cols)
       .apply(lambda g: roll(g.drop(columns=cols)))
       .reset_index(cols)
       )

代码解释:

data_orig_df.groupby(cols): 按 meetingId 和 raceId 列对 DataFrame 进行分组。
.apply(lambda g: roll(g.drop(columns=cols))): 将 roll 函数应用于每个 Group。在应用之前，我们使用 g.drop(columns=cols) 移除分组列，因为这些列不需要滚动。
.reset_index(cols): 将分组列恢复为 DataFrame 的普通列。

4. 完整代码示例

import pandas as pd
import numpy as np

data_orig = {
    'meetingId': [178515] * 6,
    'raceId': [879507] * 6,
    'horseId': [90001, 90002, 90003, 90004, 90005, 90006],
    'position': [1, 2, 3, 4, 5, 6],
    'weight': [51, 52, 53, 54, 55, 56],
}

data_orig_df = pd.DataFrame(data_orig)

def roll(g):
    a = g.to_numpy()
    x = np.arange(len(a))
    return pd.DataFrame(a[((x[:,None] + x)%len(a)).ravel()].reshape(len(a), -1),
                        index=g.index,
                        columns=[f'{c}_{i+1}' for i in x for c in g.columns])

cols = ['meetingId', 'raceId']

out = (data_orig_df.groupby(cols)
       .apply(lambda g: roll(g.drop(columns=cols)))
       .reset_index(cols)
       )

print(out)

5. 结果

out DataFrame 将包含所需的结果，其中每一行都包含该场比赛中所有马匹的相关信息。

注意事项

此方法假设每个 Group 中的行数是固定的。如果 Group 中的行数不同，则需要调整 roll 函数中的索引逻辑。
此方法在处理大型数据集时可能会占用大量内存。在这种情况下，可以考虑使用其他方法，例如循环遍历 Group 并手动添加数据。

总结

本文介绍了一种使用 Pandas 和 NumPy 在 DataFrame Group 内添加数据的高效方法。通过使用 NumPy 的高级索引功能，我们可以避免使用循环，从而提高代码的性能。这种技术在数据分析中非常有用，特别是在需要将同一组中的数据组合在一起时。记住，在处理大型数据集时，要考虑内存使用情况，并根据需要调整代码。

相关标签:

numpy pandas for 循环 Lambda len position 数据分析

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：使用 Python 替换子目录中同名文件下一篇：无需Mac，在Windows上构建macOS版Rust-Python扩展指南

作者最新文章

重制信号？育碧重新上传《刺客信条4：黑旗》音乐原声带

2026-01-15 15:21

如何为多维嵌套数组中的每个子元素自动添加 parent_id 字段

2026-01-15 15:24

红魔高管喊话友商：所有跟进风扇的友商都欠红魔一句感谢

2026-01-15 15:25

Loguru 动态注入请求上下文实现 FastAPI 每请求日志格式定制