使用Pandas根据行内指定日期动态计算数据总和

DDD

发布时间：2025-08-14 20:26:01

638人浏览过

来源于php中文网

原创

使用Pandas根据行内指定日期动态计算数据总和

本文详细介绍了如何使用Pandas在数据框中，根据每行独立指定的日期（截止日期），动态地计算该行中所有日期列数值在截止日期之前和之后的总和。通过结合melt、assign、groupby、unstack和merge等Pandas核心操作，实现数据的高效重塑、分类、聚合与合并，从而解决按行动态条件进行数据汇总的复杂需求，提升数据处理的灵活性和效率。

在数据分析场景中，我们经常会遇到需要根据特定条件对数据进行聚合计算的需求。一个常见的复杂场景是，数据框的每一行都包含一系列按时间顺序排列的数值列，以及一个指示该行特定截止日期的列。我们的目标是针对每一行，计算出截止日期之前所有数值的总和，以及截止日期之后所有数值的总和。

问题描述

假设我们有一个Pandas DataFrame，其结构大致如下：

Code	202001	202002	...	202012	Date
12345	1000	1001	...	1011	202004
12346	999	1000	...	1010	202006
...	...	...	...	...	...

其中：

Code 列是唯一标识符。
202001, 202002, ..., 202012 等列代表不同日期的数值数据。
Date 列为每行指定了一个截止日期，例如 202004 表示对于 Code 为 12345 的行，我们希望将 202001, 202002, 202003 的值求和作为“之前”的总和，将 202004 到 202012 的值求和作为“之后”的总和。

解决方案：Pandas数据重塑与聚合

为了实现这一目标，我们可以利用Pandas的melt、assign、groupby、unstack和merge等函数组合，将宽格式数据转换为长格式，进行条件判断和聚合，最终将结果合并回原始数据框。

Convai Technologies Inc.

对话式 AI API，用于设计游戏和支持端到端的语音交互

下载

核心思路

数据重塑 (Melt)：将所有日期列（如202001到202012）“熔化”成两列：一列表示原始列名（即日期），另一列表示对应的值。这样，每一行数据都包含了Code、Date（截止日期）、具体的日期列名和该日期下的值。
数据类型转换：确保用于比较的日期字符串类型一致。
条件判断与分类 (Assign)：基于熔化后的日期列与每行的Date截止日期进行比较，判断每个值是属于“之前”还是“之后”，并创建一个新的分类列。
分组聚合 (Groupby & Sum)：根据Code和新创建的分类列进行分组，并对值进行求和。
结果重塑 (Unstack)：将“之前”和“之后”的聚合结果从行索引转换为新的列。
数据合并 (Merge)：将计算出的“之前”和“之后”总和合并回原始DataFrame。

详细步骤与代码示例

首先，假设我们有一个名为 df 的DataFrame，其结构如上述所示。

import pandas as pd
import numpy as np

# 示例数据框（请根据实际情况替换为您的数据）
data = {
    'Code': [12345, 12346, 12347],
    '202001': [1000, 999, 1983],
    '202002': [1001, 1000, 1984],
    '202003': [1002, 1001, 1985],
    '202004': [1003, 1002, 1986],
    '202005': [1004, 1003, 1987],
    '202006': [1005, 1003, 1988],
    '202007': [3006, 1005, 1989],
    '202008': [1007, 1006, 1990],
    '202009': [1008, 1007, 1991],
    '202010': [1009, 1008, 1992],
    '202011': [1010, 1009, 1993],
    '202012': [1011, 1010, 1994],
    'Date': ['202004', '202006', '202010']
}
df = pd.DataFrame(data)

print("原始数据框:")
print(df)

# 1. 数据重塑 (Melt)
# 保留 'Code' 和 'Date' 列作为标识符，其余日期列被熔化
# 'variable' 将包含日期列名 (如 '202001')，'value' 包含对应数值
tmp = df.melt(id_vars=['Code', 'Date'])

# 2. 数据类型转换
# 确保用于比较的 'Date' 和 'variable' (熔化后的日期列名) 都是字符串类型
# 这样可以直接进行字符串比较，对于YYYYMMDD格式的日期字符串，这种比较是有效的。
tmp['Date'] = tmp['Date'].astype(str)
tmp['variable'] = tmp['variable'].astype(str)

# 3. 条件判断与分类 (Assign)
# 使用 np.where 根据 'variable' (当前日期) 是否大于 'Date' (截止日期) 来分类
# 如果 variable > Date，则为 'After'，否则为 'Before'
tmp = tmp.assign(col=lambda d: np.where(d['Date'].gt(d['variable']), 'Before', 'After'))

# 4. 分组聚合 (Groupby & Sum)
# 按照 'Code' 和新创建的 'col' (Before/After) 进行分组，并对 'value' 求和
# 这样我们就得到了每个 Code 在 Before/After 分类下的总和
grouped_sums = tmp.groupby(['Code', 'col'])['value'].sum()

# 5. 结果重塑 (Unstack)
# 将 'col' (Before/After) 从行索引转换为列，形成 'Before' 和 'After' 两列
# 并指定列的顺序，确保 'Before' 在 'After' 之前
unstacked_sums = grouped_sums.unstack('col')[['Before', 'After']]

# 6. 数据合并 (Merge)
# 将计算出的 'Before' 和 'After' 总和合并回原始 DataFrame
# 使用 'Code' 作为左侧DataFrame的键，unstacked_sums 的索引作为右侧DataFrame的键
# how='left' 确保原始DataFrame的所有行都被保留
out = df.merge(unstacked_sums, left_on='Code', right_index=True, how='left')

print("\n处理后的数据框:")
print(out)

输出结果

原始数据框:
    Code  202001  202002  202003  202004  202005  202006  202007  202008  202009  202010  202011  202012    Date
0  12345    1000    1001    1002    1003    1004    1005    3006    1007    1008    1009    1010    1011  202004
1  12346     999    1000    1001    1002    1003    1003    1005    1006    1007    1008    1009    1010  202006
2  12347    1983    1984    1985    1986    1987    1988    1989    1990    1991    1992    1993    1994  202010

处理后的数据框:
    Code  202001  202002  202003  202004  202005  202006  202007  202008  202009  202010  202011  202012    Date  Before  After
0  12345    1000    1001    1002    1003    1004    1005    3006    1007    1008    1009    1010    1011  202004    3003  11063
1  12346     999    1000    1001    1002    1003    1003    1005    1006    1007    1008    1009    1010  202006    5005   7048
2  12347    1983    1984    1985    1986    1987    1988    1989    1990    1991    1992    1993    1994  202010   17883   5979

注意事项

日期格式与比较:
- 本教程中，日期列名和 Date 列的值都假定为 YYYYMMDD 格式的字符串。这种格式的字符串可以直接进行字典序比较，其结果与日期大小比较一致。
- 如果日期格式不是 YYYYMMDD (例如 MMDDYYYY 或带有分隔符)，或者需要进行更复杂的日期运算 (如计算天数差)，则建议将相关列转换为Pandas的 datetime 对象，再进行比较和操作。例如：pd.to_datetime(tmp['Date'], format='%Y%m%d')。
“之前”和“之后”的定义:
- 在 np.where(d['Date'].gt(d['variable']), 'Before', 'After') 中，d['Date'].gt(d['variable']) 表示 Date 列的日期大于 variable 列的日期时，被标记为 'Before'。这意味着 Date 列的日期本身及其之后的日期都被归入 'After' 类别。
- 如果需要将截止日期本身归入“之前”类别，可以将条件调整为 d['Date'].ge(d['variable']) (大于等于) 或 d['Date'] > d['variable']。
现有列处理:
- 如果原始DataFrame中已经存在名为 'Before' 或 'After' 的列，在执行合并操作前，可能需要先使用 df.drop(columns=['Before', 'After'], errors='ignore') 来删除它们，以避免列名冲突。
性能考虑:
- 对于非常大的数据集，melt 操作可能会消耗较多内存。但对于大多数常见的数据规模，这种方法是高效且可读性强的。

总结

本教程展示了如何利用Pandas强大的数据重塑和聚合功能，解决根据行内动态条件进行数据汇总的复杂问题。通过将宽格式数据转换为长格式，结合条件判断进行分类，再进行分组聚合，最后将结果合并回原始数据框，这种模式在处理类似的时间序列或多维度数据分析时非常有用，极大地提高了数据处理的灵活性和自动化程度。掌握这些技巧，将有助于您更高效地处理和分析复杂的数据集。

如何编写一个函数，计算并返回从 0 到指定数值的所有阶乘值列表

如何在Python中正确更新列表中的字符串元素

Flask 模板中 if 语句语法错误的排查与修正

如何在 Pandas DataFrame 开头补全缺失时间戳并统一插值降频

如何正确更新列表中的字符串元素？