使用 Pandas cummax() 维护序列中的历史最大值

聖光之護

发布时间：2025-11-21 14:33:22

929人浏览过

来源于php中文网

原创

使用 Pandas cummax() 维护序列中的历史最大值

本文将深入探讨如何利用 pandas 库中的 `cummax()` 函数，高效地在 dataframe 中创建一个新列，该列能够追踪并保留序列中迄今为止遇到的最大值。通过一个实际案例，我们将展示 `cummax()` 如何简洁而准确地实现复杂的数据累计最大值保持逻辑，避免手动迭代的繁琐，从而优化数据处理流程。

引言：追踪并维护序列中的历史最大值

在数据分析和处理中，我们经常会遇到需要在一个序列中追踪并保留迄今为止所遇到的最大值（或最小值）的需求。例如，在金融数据分析中，可能需要跟踪股票价格的历史最高点；在性能监控中，可能需要记录系统的峰值负载。这类问题通常要求创建一个新列，其值在遇到更大的新值时更新，否则保持上一个最大值。虽然这类逻辑听起来可能有些复杂，但 Pandas 库提供了一个非常简洁且高效的内置函数来解决它。

数据准备

首先，我们通过一个示例 DataFrame 来阐述这个问题。假设我们有一个包含数值列 a 的 DataFrame，我们希望创建一个新列 c，使其在每个点上都表示 a 列从开始到当前位置的最大值。

import pandas as pd

df = pd.DataFrame(
    {
        'a': [110, 115, 112, 180, 150, 175, 160, 145, 200, 205, 208, 203, 206, 207, 208, 209, 210, 215],
        'b': [1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1], # 列 'b' 在本教程中不直接用于计算 'c'
    }
)

print("原始 DataFrame:")
print(df)

原始 DataFrame 输出：

问题分析与期望结果

原始问题描述中，用户试图通过一个辅助列 b 来标识 a 列的递增趋势，并进一步构思了复杂的“连胜（streak）”概念，希望在连胜结束时保留连胜期间的最大值，直到遇到更大的新值才更新。然而，仔细分析用户提供的期望输出 c 列，可以发现其行为模式实际上与 pandas.Series.cummax() 函数的功能完全一致。也就是说，c 列在任何时刻都存储着 a 列从开始到当前位置所遇到的最大值。

期望输出 c 列的逻辑：

c 的第一个值是 a 的第一个值。
对于后续的每一个位置，c 的值是当前 a 的值与前一个 c 的值中的较大者。

例如：

c[0] = a[0] = 110
c[1] = max(a[1], c[0]) = max(115, 110) = 115
c[2] = max(a[2], c[1]) = max(112, 115) = 115 (因为 112 不大于 115)
c[3] = max(a[3], c[2]) = max(180, 115) = 180
以此类推...

解决方案：pandas.Series.cummax()

Pandas 库为这种累积计算提供了专门的函数，其中 Series.cummax() 就是用于计算序列累积最大值的函数。它会遍历 Series 中的每个元素，并返回一个新 Series，其中每个位置的值是到该位置为止所有元素的累积最大值。

实现代码：

Autoppt

Autoppt：打造高效与精美PPT的AI工具

下载

# 使用 cummax() 计算列 'c'
df['c'] = df['a'].cummax()

print("\n生成 'c' 列后的 DataFrame:")
print(df)

输出结果：

      a  b    c
0   110  1  110
1   115  1  115
2   112  0  115
3   180  1  180
4   150  0  180
5   175  1  180
6   160  0  180
7   145  0  180
8   200  1  200
9   205  1  205
10  208  1  208
11  203  0  208
12  206  1  208
13  207  1  208
14  208  1  208
15  209  1  209
16  210  1  210
17  215  1  215

从输出结果可以看出，df['c'] = df['a'].cummax() 完美地实现了期望的逻辑，即在 a 列中遇到更大的值时更新 c，否则保持当前的最大值。

cummax() 函数详解

pandas.Series.cummax() 是一个强大的函数，它属于 Series 对象的方法，用于执行累积最大值计算。

工作原理：

它从 Series 的第一个元素开始。
对于每个元素，它将其与之前所有元素的累积最大值进行比较。
如果当前元素大于累积最大值，则累积最大值更新为当前元素的值。
否则，累积最大值保持不变。
这个累积最大值被记录在新 Series 的对应位置。

参数说明：

axis: 默认为 None。对于 Series，此参数没有意义。对于 DataFrame，可以指定按行或按列计算。
skipna: 默认为 True。表示在计算时跳过 NaN（非数字）值。如果设置为 False，则 NaN 值将传播，即如果累积过程中遇到 NaN，则后续结果都将是 NaN。

示例（skipna 参数）：

s = pd.Series([1, 3, None, 2, 5])

# skipna=True (默认行为)
print("skipna=True:")
print(s.cummax())
# 输出: 0    1.0
#       1    3.0
#       2    3.0 (None 被跳过，保留前一个最大值)
#       3    3.0
#       4    5.0
#       dtype: float64

# skipna=False
print("\nskipna=False:")
print(s.cummax(skipna=False))
# 输出: 0    1.0
#       1    3.0
#       2    NaN (遇到 None 后传播 NaN)
#       3    NaN
#       4    NaN
#       dtype: float64

注意事项与总结

简洁性与效率： cummax() 函数是高度优化的 C 语言实现，比手动编写循环来计算累积最大值要快得多，尤其是在处理大型数据集时。
问题澄清： 在实际工作中，有时对问题的描述可能比实际需求更复杂。本案例中，尽管原始问题描述了复杂的“连胜”和 b 列逻辑，但最终期望的 c 列输出却直接对应 cummax() 的功能。因此，理解核心需求并将其映射到 Pandas 的内置功能是高效解决问题的关键。
适用场景： cummax() 不仅适用于追踪数值序列的历史最大值，其对应的 cummin() 可用于追踪历史最小值，cumsum() 用于累积和，cumprod() 用于累积乘积。这些函数在时间序列分析、性能指标计算、数据规范化等多种场景下都非常有用。

通过 pandas.Series.cummax()，我们可以以极高的效率和简洁性解决在 DataFrame 中维护历史最大值的问题。掌握这类内置函数是提升 Pandas 数据处理能力的重要一步。

Python量化交易实战教程_策略回测与数据分析实践

Python推荐系统深度项目教程_协同过滤深度学习整合

基于Python的推荐系统开发_协同过滤与深度学习结合

Python微服务监控教程_PrometheusGrafana报警与可视化

Python技术债务管理_长期维护解析【教程】

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

数据分析的方法

数据分析的方法有：对比分析法，分组分析法，预测分析法，漏斗分析法，AB测试分析法，象限分析法，公式拆解法，可行域分析法，二八分析法，假设性分析法。php中文网为大家带来了数据分析的相关知识、以及相关文章等内容。

465

2023.07.04

数据分析方法有哪几种

数据分析方法有：1、描述性统计分析；2、探索性数据分析；3、假设检验；4、回归分析；5、聚类分析。本专题为大家提供数据分析方法的相关的文章、下载、课程内容，供大家免费下载体验。

279

2023.08.07

网站建设功能有哪些

网站建设功能包括信息发布、内容管理、用户管理、搜索引擎优化、网站安全、数据分析、网站推广、响应式设计、社交媒体整合和电子商务等功能。这些功能可以帮助网站管理员创建一个具有吸引力、可用性和商业价值的网站，实现网站的目标。

726

2023.10.16

数据分析网站推荐

数据分析网站推荐：1、商业数据分析论坛；2、人大经济论坛-计量经济学与统计区；3、中国统计论坛；4、数据挖掘学习交流论坛；5、数据分析论坛；6、网站数据分析；7、数据分析；8、数据挖掘研究院；9、S-PLUS、R统计论坛。想了解更多数据分析的相关内容，可以阅读本专题下面的文章。

508

2024.03.13

Python 数据分析处理

本专题聚焦 Python 在数据分析领域的应用，系统讲解 Pandas、NumPy 的数据清洗、处理、分析与统计方法，并结合数据可视化、销售分析、科研数据处理等实战案例，帮助学员掌握使用 Python 高效进行数据分析与决策支持的核心技能。

2025.09.08

Python 数据分析与可视化

本专题聚焦 Python 在数据分析与可视化领域的核心应用，系统讲解数据清洗、数据统计、Pandas 数据操作、NumPy 数组处理、Matplotlib 与 Seaborn 可视化技巧等内容。通过实战案例（如销售数据分析、用户行为可视化、趋势图与热力图绘制），帮助学习者掌握从原始数据到可视化报告的完整分析能力。

2025.10.14