0

0

使用 Pandas 和 NumPy 在 Group 内添加数据

碧海醫心

碧海醫心

发布时间:2025-08-24 21:26:13

|

705人浏览过

|

来源于php中文网

原创

使用 pandas 和 numpy 在 group 内添加数据

本文档旨在提供一种高效的方法,利用 Pandas 和 NumPy,在 Pandas DataFrame 的 Group 内,将每一行的数据添加到 Group 内的每一行。这种操作在数据分析中经常遇到,例如在赛马数据中,需要将每匹马的信息添加到同一场比赛的其他马匹的信息中。本文将提供详细的代码示例和解释,帮助读者理解和应用该方法。

问题描述

假设我们有一个包含赛马数据的 DataFrame,其中数据按 raceId 分组。我们希望将同一场比赛中每匹马的特定数据(例如 horseId、position、weight)添加到该场比赛的其他所有马匹的数据中。最终,DataFrame 的每一行都包含该场比赛中所有马匹的相关信息。

解决方案

以下是如何使用 Pandas 和 NumPy 实现此目标的步骤:

1. 导入必要的库

首先,导入 Pandas 和 NumPy 库:

import pandas as pd
import numpy as np

2. 定义 roll 函数

定义一个名为 roll 的函数,该函数接受一个 DataFrame Group 作为输入,并使用 NumPy 滚动和索引值。此函数将 DataFrame 转换为 NumPy 数组,然后使用 NumPy 的高级索引功能来创建所有可能的行组合。最后,将结果转换回 DataFrame,并添加适当的列名。

def roll(g):
    a = g.to_numpy()
    x = np.arange(len(a))
    return pd.DataFrame(a[((x[:,None] + x)%len(a)).ravel()].reshape(len(a), -1),
                        index=g.index,
                        columns=[f'{c}_{i+1}' for i in x for c in g.columns])

代码解释:

LANUX蓝脑商务网站系统
LANUX蓝脑商务网站系统

LANUX V1.0 蓝脑商务网站系统 适用于网店、公司宣传自己的品牌和产品。 系统在代码、页面方面设计简约,浏览和后台管理操作效率高。 此版本带可见即可得的html编辑器, 方便直观添加和编辑要发布的内容。 安装: 1.解压后,更换logo、分类名称、幻灯片的图片及名称和链接、联系我们等等页面。 2.将dbconfig.php里面的数据库配置更改为你的mysql数据库配置 3.将整个文件夹上传至

下载
  • g.to_numpy(): 将 DataFrame Group 转换为 NumPy 数组,以便使用 NumPy 的高效操作。
  • np.arange(len(a)): 创建一个从 0 到 Group 长度的数组,用于后续的索引操作。
  • ((x[:,None] + x)%len(a)).ravel(): 这是核心部分,它使用 NumPy 的广播和取模操作来生成所有可能的行索引组合。
    • x[:,None]:将 x 转换为列向量。
    • x[:,None] + x:将列向量 x 与行向量 x 相加,得到一个二维数组,其中每个元素 (i, j) 的值为 i + j。
    • %len(a):对每个元素进行取模操作,确保索引值在 Group 长度范围内。
    • .ravel():将二维数组展平为一维数组,包含所有滚动后的索引。
  • a[((x[:,None] + x)%len(a)).ravel()].reshape(len(a), -1): 使用生成的索引从原始 NumPy 数组 a 中选择相应的行,并将其重塑为 DataFrame 的形状。
  • pd.DataFrame(...): 将结果转换为 Pandas DataFrame。
  • columns=[f'{c}_{i+1}' for i in x for c in g.columns]: 为新的 DataFrame 列添加后缀,以便区分不同的马匹数据。

3. 分组和应用 roll 函数

使用 Pandas 的 groupby 方法按 meetingId 和 raceId 列对 DataFrame 进行分组。然后,使用 apply 方法将 roll 函数应用于每个 Group。

cols = ['meetingId', 'raceId']

out = (data_orig_df.groupby(cols)
       .apply(lambda g: roll(g.drop(columns=cols)))
       .reset_index(cols)
       )

代码解释:

  • data_orig_df.groupby(cols): 按 meetingId 和 raceId 列对 DataFrame 进行分组。
  • .apply(lambda g: roll(g.drop(columns=cols))): 将 roll 函数应用于每个 Group。在应用之前,我们使用 g.drop(columns=cols) 移除分组列,因为这些列不需要滚动。
  • .reset_index(cols): 将分组列恢复为 DataFrame 的普通列。

4. 完整代码示例

import pandas as pd
import numpy as np

data_orig = {
    'meetingId': [178515] * 6,
    'raceId': [879507] * 6,
    'horseId': [90001, 90002, 90003, 90004, 90005, 90006],
    'position': [1, 2, 3, 4, 5, 6],
    'weight': [51, 52, 53, 54, 55, 56],
}

data_orig_df = pd.DataFrame(data_orig)

def roll(g):
    a = g.to_numpy()
    x = np.arange(len(a))
    return pd.DataFrame(a[((x[:,None] + x)%len(a)).ravel()].reshape(len(a), -1),
                        index=g.index,
                        columns=[f'{c}_{i+1}' for i in x for c in g.columns])

cols = ['meetingId', 'raceId']

out = (data_orig_df.groupby(cols)
       .apply(lambda g: roll(g.drop(columns=cols)))
       .reset_index(cols)
       )

print(out)

5. 结果

out DataFrame 将包含所需的结果,其中每一行都包含该场比赛中所有马匹的相关信息。

注意事项

  • 此方法假设每个 Group 中的行数是固定的。如果 Group 中的行数不同,则需要调整 roll 函数中的索引逻辑。
  • 此方法在处理大型数据集时可能会占用大量内存。在这种情况下,可以考虑使用其他方法,例如循环遍历 Group 并手动添加数据。

总结

本文介绍了一种使用 Pandas 和 NumPy 在 DataFrame Group 内添加数据的高效方法。通过使用 NumPy 的高级索引功能,我们可以避免使用循环,从而提高代码的性能。 这种技术在数据分析中非常有用,特别是在需要将同一组中的数据组合在一起时。 记住,在处理大型数据集时,要考虑内存使用情况,并根据需要调整代码。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

51

2025.12.04

lambda表达式
lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式,它可以在需要函数作为参数的地方使用,并提供了一种更简洁、更灵活的编码方式,其语法为“lambda 参数列表: 表达式”,参数列表是函数的参数,可以包含一个或多个参数,用逗号分隔,表达式是函数的执行体,用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容,供大家免费下载体验。

204

2023.09.15

python lambda函数
python lambda函数

本专题整合了python lambda函数用法详解,阅读专题下面的文章了解更多详细内容。

190

2025.11.08

Python lambda详解
Python lambda详解

本专题整合了Python lambda函数相关教程,阅读下面的文章了解更多详细内容。

47

2026.01.05

lambda表达式
lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式,它可以在需要函数作为参数的地方使用,并提供了一种更简洁、更灵活的编码方式,其语法为“lambda 参数列表: 表达式”,参数列表是函数的参数,可以包含一个或多个参数,用逗号分隔,表达式是函数的执行体,用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容,供大家免费下载体验。

204

2023.09.15

python lambda函数
python lambda函数

本专题整合了python lambda函数用法详解,阅读专题下面的文章了解更多详细内容。

190

2025.11.08

Python lambda详解
Python lambda详解

本专题整合了Python lambda函数相关教程,阅读下面的文章了解更多详细内容。

47

2026.01.05

CSS position定位有几种方式
CSS position定位有几种方式

有4种,分别是静态定位、相对定位、绝对定位和固定定位。更多关于CSS position定位有几种方式的内容,可以访问下面的文章。

81

2023.11.23

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

43

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号