
本文将深入探讨如何利用 pandas 库中的 `cummax()` 函数,高效地在 dataframe 中创建一个新列,该列能够追踪并保留序列中迄今为止遇到的最大值。通过一个实际案例,我们将展示 `cummax()` 如何简洁而准确地实现复杂的数据累计最大值保持逻辑,避免手动迭代的繁琐,从而优化数据处理流程。
引言:追踪并维护序列中的历史最大值
在数据分析和处理中,我们经常会遇到需要在一个序列中追踪并保留迄今为止所遇到的最大值(或最小值)的需求。例如,在金融数据分析中,可能需要跟踪股票价格的历史最高点;在性能监控中,可能需要记录系统的峰值负载。这类问题通常要求创建一个新列,其值在遇到更大的新值时更新,否则保持上一个最大值。虽然这类逻辑听起来可能有些复杂,但 Pandas 库提供了一个非常简洁且高效的内置函数来解决它。
数据准备
首先,我们通过一个示例 DataFrame 来阐述这个问题。假设我们有一个包含数值列 a 的 DataFrame,我们希望创建一个新列 c,使其在每个点上都表示 a 列从开始到当前位置的最大值。
import pandas as pd
df = pd.DataFrame(
{
'a': [110, 115, 112, 180, 150, 175, 160, 145, 200, 205, 208, 203, 206, 207, 208, 209, 210, 215],
'b': [1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1], # 列 'b' 在本教程中不直接用于计算 'c'
}
)
print("原始 DataFrame:")
print(df)原始 DataFrame 输出:
a b 0 110 1 1 115 1 2 112 0 3 180 1 4 150 0 5 175 1 6 160 0 7 145 0 8 200 1 9 205 1 10 208 1 11 203 0 12 206 1 13 207 1 14 208 1 15 209 1 16 210 1 17 215 1
问题分析与期望结果
原始问题描述中,用户试图通过一个辅助列 b 来标识 a 列的递增趋势,并进一步构思了复杂的“连胜(streak)”概念,希望在连胜结束时保留连胜期间的最大值,直到遇到更大的新值才更新。然而,仔细分析用户提供的期望输出 c 列,可以发现其行为模式实际上与 pandas.Series.cummax() 函数的功能完全一致。也就是说,c 列在任何时刻都存储着 a 列从开始到当前位置所遇到的最大值。
期望输出 c 列的逻辑:
- c 的第一个值是 a 的第一个值。
- 对于后续的每一个位置,c 的值是当前 a 的值与前一个 c 的值中的较大者。
例如:
- c[0] = a[0] = 110
- c[1] = max(a[1], c[0]) = max(115, 110) = 115
- c[2] = max(a[2], c[1]) = max(112, 115) = 115 (因为 112 不大于 115)
- c[3] = max(a[3], c[2]) = max(180, 115) = 180
- 以此类推...
解决方案:pandas.Series.cummax()
Pandas 库为这种累积计算提供了专门的函数,其中 Series.cummax() 就是用于计算序列累积最大值的函数。它会遍历 Series 中的每个元素,并返回一个新 Series,其中每个位置的值是到该位置为止所有元素的累积最大值。
实现代码:
# 使用 cummax() 计算列 'c'
df['c'] = df['a'].cummax()
print("\n生成 'c' 列后的 DataFrame:")
print(df)输出结果:
a b c 0 110 1 110 1 115 1 115 2 112 0 115 3 180 1 180 4 150 0 180 5 175 1 180 6 160 0 180 7 145 0 180 8 200 1 200 9 205 1 205 10 208 1 208 11 203 0 208 12 206 1 208 13 207 1 208 14 208 1 208 15 209 1 209 16 210 1 210 17 215 1 215
从输出结果可以看出,df['c'] = df['a'].cummax() 完美地实现了期望的逻辑,即在 a 列中遇到更大的值时更新 c,否则保持当前的最大值。
cummax() 函数详解
pandas.Series.cummax() 是一个强大的函数,它属于 Series 对象的方法,用于执行累积最大值计算。
工作原理:
- 它从 Series 的第一个元素开始。
- 对于每个元素,它将其与之前所有元素的累积最大值进行比较。
- 如果当前元素大于累积最大值,则累积最大值更新为当前元素的值。
- 否则,累积最大值保持不变。
- 这个累积最大值被记录在新 Series 的对应位置。
参数说明:
- axis: 默认为 None。对于 Series,此参数没有意义。对于 DataFrame,可以指定按行或按列计算。
- skipna: 默认为 True。表示在计算时跳过 NaN(非数字)值。如果设置为 False,则 NaN 值将传播,即如果累积过程中遇到 NaN,则后续结果都将是 NaN。
示例(skipna 参数):
s = pd.Series([1, 3, None, 2, 5])
# skipna=True (默认行为)
print("skipna=True:")
print(s.cummax())
# 输出: 0 1.0
# 1 3.0
# 2 3.0 (None 被跳过,保留前一个最大值)
# 3 3.0
# 4 5.0
# dtype: float64
# skipna=False
print("\nskipna=False:")
print(s.cummax(skipna=False))
# 输出: 0 1.0
# 1 3.0
# 2 NaN (遇到 None 后传播 NaN)
# 3 NaN
# 4 NaN
# dtype: float64注意事项与总结
- 简洁性与效率: cummax() 函数是高度优化的 C 语言实现,比手动编写循环来计算累积最大值要快得多,尤其是在处理大型数据集时。
- 问题澄清: 在实际工作中,有时对问题的描述可能比实际需求更复杂。本案例中,尽管原始问题描述了复杂的“连胜”和 b 列逻辑,但最终期望的 c 列输出却直接对应 cummax() 的功能。因此,理解核心需求并将其映射到 Pandas 的内置功能是高效解决问题的关键。
- 适用场景: cummax() 不仅适用于追踪数值序列的历史最大值,其对应的 cummin() 可用于追踪历史最小值,cumsum() 用于累积和,cumprod() 用于累积乘积。这些函数在时间序列分析、性能指标计算、数据规范化等多种场景下都非常有用。
通过 pandas.Series.cummax(),我们可以以极高的效率和简洁性解决在 DataFrame 中维护历史最大值的问题。掌握这类内置函数是提升 Pandas 数据处理能力的重要一步。










