
本文档旨在提供一种高效的方法,利用 Pandas 和 NumPy,在 Pandas DataFrame 的 Group 内,将每一行的数据添加到 Group 内的每一行。这种操作在数据分析中经常遇到,例如在赛马数据中,需要将每匹马的信息添加到同一场比赛的其他马匹的信息中。本文将提供详细的代码示例和解释,帮助读者理解和应用该方法。
假设我们有一个包含赛马数据的 DataFrame,其中数据按 raceId 分组。我们希望将同一场比赛中每匹马的特定数据(例如 horseId、position、weight)添加到该场比赛的其他所有马匹的数据中。最终,DataFrame 的每一行都包含该场比赛中所有马匹的相关信息。
以下是如何使用 Pandas 和 NumPy 实现此目标的步骤:
1. 导入必要的库
首先,导入 Pandas 和 NumPy 库:
import pandas as pd import numpy as np
2. 定义 roll 函数
定义一个名为 roll 的函数,该函数接受一个 DataFrame Group 作为输入,并使用 NumPy 滚动和索引值。此函数将 DataFrame 转换为 NumPy 数组,然后使用 NumPy 的高级索引功能来创建所有可能的行组合。最后,将结果转换回 DataFrame,并添加适当的列名。
def roll(g):
a = g.to_numpy()
x = np.arange(len(a))
return pd.DataFrame(a[((x[:,None] + x)%len(a)).ravel()].reshape(len(a), -1),
index=g.index,
columns=[f'{c}_{i+1}' for i in x for c in g.columns])代码解释:
3. 分组和应用 roll 函数
使用 Pandas 的 groupby 方法按 meetingId 和 raceId 列对 DataFrame 进行分组。然后,使用 apply 方法将 roll 函数应用于每个 Group。
cols = ['meetingId', 'raceId']
out = (data_orig_df.groupby(cols)
.apply(lambda g: roll(g.drop(columns=cols)))
.reset_index(cols)
)代码解释:
4. 完整代码示例
import pandas as pd
import numpy as np
data_orig = {
'meetingId': [178515] * 6,
'raceId': [879507] * 6,
'horseId': [90001, 90002, 90003, 90004, 90005, 90006],
'position': [1, 2, 3, 4, 5, 6],
'weight': [51, 52, 53, 54, 55, 56],
}
data_orig_df = pd.DataFrame(data_orig)
def roll(g):
a = g.to_numpy()
x = np.arange(len(a))
return pd.DataFrame(a[((x[:,None] + x)%len(a)).ravel()].reshape(len(a), -1),
index=g.index,
columns=[f'{c}_{i+1}' for i in x for c in g.columns])
cols = ['meetingId', 'raceId']
out = (data_orig_df.groupby(cols)
.apply(lambda g: roll(g.drop(columns=cols)))
.reset_index(cols)
)
print(out)5. 结果
out DataFrame 将包含所需的结果,其中每一行都包含该场比赛中所有马匹的相关信息。
本文介绍了一种使用 Pandas 和 NumPy 在 DataFrame Group 内添加数据的高效方法。通过使用 NumPy 的高级索引功能,我们可以避免使用循环,从而提高代码的性能。 这种技术在数据分析中非常有用,特别是在需要将同一组中的数据组合在一起时。 记住,在处理大型数据集时,要考虑内存使用情况,并根据需要调整代码。
以上就是使用 Pandas 和 NumPy 在 Group 内添加数据的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号