
本文将深入探讨如何利用 pandas 库中的 `cummax()` 函数,高效地在 dataframe 中创建一个新列,该列能够追踪并保留序列中迄今为止遇到的最大值。通过一个实际案例,我们将展示 `cummax()` 如何简洁而准确地实现复杂的数据累计最大值保持逻辑,避免手动迭代的繁琐,从而优化数据处理流程。
在数据分析和处理中,我们经常会遇到需要在一个序列中追踪并保留迄今为止所遇到的最大值(或最小值)的需求。例如,在金融数据分析中,可能需要跟踪股票价格的历史最高点;在性能监控中,可能需要记录系统的峰值负载。这类问题通常要求创建一个新列,其值在遇到更大的新值时更新,否则保持上一个最大值。虽然这类逻辑听起来可能有些复杂,但 Pandas 库提供了一个非常简洁且高效的内置函数来解决它。
首先,我们通过一个示例 DataFrame 来阐述这个问题。假设我们有一个包含数值列 a 的 DataFrame,我们希望创建一个新列 c,使其在每个点上都表示 a 列从开始到当前位置的最大值。
import pandas as pd
df = pd.DataFrame(
{
'a': [110, 115, 112, 180, 150, 175, 160, 145, 200, 205, 208, 203, 206, 207, 208, 209, 210, 215],
'b': [1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1], # 列 'b' 在本教程中不直接用于计算 'c'
}
)
print("原始 DataFrame:")
print(df)原始 DataFrame 输出:
a b 0 110 1 1 115 1 2 112 0 3 180 1 4 150 0 5 175 1 6 160 0 7 145 0 8 200 1 9 205 1 10 208 1 11 203 0 12 206 1 13 207 1 14 208 1 15 209 1 16 210 1 17 215 1
原始问题描述中,用户试图通过一个辅助列 b 来标识 a 列的递增趋势,并进一步构思了复杂的“连胜(streak)”概念,希望在连胜结束时保留连胜期间的最大值,直到遇到更大的新值才更新。然而,仔细分析用户提供的期望输出 c 列,可以发现其行为模式实际上与 pandas.Series.cummax() 函数的功能完全一致。也就是说,c 列在任何时刻都存储着 a 列从开始到当前位置所遇到的最大值。
期望输出 c 列的逻辑:
例如:
Pandas 库为这种累积计算提供了专门的函数,其中 Series.cummax() 就是用于计算序列累积最大值的函数。它会遍历 Series 中的每个元素,并返回一个新 Series,其中每个位置的值是到该位置为止所有元素的累积最大值。
实现代码:
# 使用 cummax() 计算列 'c'
df['c'] = df['a'].cummax()
print("\n生成 'c' 列后的 DataFrame:")
print(df)输出结果:
a b c 0 110 1 110 1 115 1 115 2 112 0 115 3 180 1 180 4 150 0 180 5 175 1 180 6 160 0 180 7 145 0 180 8 200 1 200 9 205 1 205 10 208 1 208 11 203 0 208 12 206 1 208 13 207 1 208 14 208 1 208 15 209 1 209 16 210 1 210 17 215 1 215
从输出结果可以看出,df['c'] = df['a'].cummax() 完美地实现了期望的逻辑,即在 a 列中遇到更大的值时更新 c,否则保持当前的最大值。
pandas.Series.cummax() 是一个强大的函数,它属于 Series 对象的方法,用于执行累积最大值计算。
工作原理:
参数说明:
示例(skipna 参数):
s = pd.Series([1, 3, None, 2, 5])
# skipna=True (默认行为)
print("skipna=True:")
print(s.cummax())
# 输出: 0 1.0
# 1 3.0
# 2 3.0 (None 被跳过,保留前一个最大值)
# 3 3.0
# 4 5.0
# dtype: float64
# skipna=False
print("\nskipna=False:")
print(s.cummax(skipna=False))
# 输出: 0 1.0
# 1 3.0
# 2 NaN (遇到 None 后传播 NaN)
# 3 NaN
# 4 NaN
# dtype: float64通过 pandas.Series.cummax(),我们可以以极高的效率和简洁性解决在 DataFrame 中维护历史最大值的问题。掌握这类内置函数是提升 Pandas 数据处理能力的重要一步。
以上就是使用 Pandas cummax() 维护序列中的历史最大值的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号