Pandas数据透视表：按半年间隔灵活分组聚合-Python教程-PHP中文网

Pandas数据透视表：按半年间隔灵活分组聚合

心靈之曲

发布： 2025-10-24 13:44:41

原创

837人浏览过

Pandas数据透视表：按半年间隔灵活分组聚合

本文详细介绍了如何在pandas中创建按半年（6个月）间隔聚合的数据透视表，而非默认的按年或季度。通过结合使用`df.index.year`和`np.where`自定义月份区间，可以构建出灵活的多级索引，并进一步将这些索引转换为标准的日期时间格式，以满足更精细的数据分析和可视化需求。

在数据分析中，我们经常需要根据时间维度对数据进行聚合和汇总。Pandas的pivot_table函数是实现这一目标的强大工具。然而，当默认的按年、季度或月度聚合无法满足特定分析需求时，例如需要按半年（每6个月）进行分组时，就需要一些自定义的技巧。本教程将指导您如何实现这一目标。

1. 准备示例数据

首先，我们创建一个包含日期索引和随机数据的Pandas DataFrame，模拟日常数据。为了更好地演示，我们还会添加一个Vessel列，用于作为数据透视表的列。

import pandas as pd
import numpy as np

# 创建日期范围索引
date_rng = pd.date_range(start='2023-01-01', end='2024-01-05', freq='D')

# 创建随机数据
data = np.random.rand(len(date_rng), 3)
df = pd.DataFrame(data, columns=['Column1', 'Column2', 'Column3'], index=date_rng)

# 添加 'Vessel' 列，模拟分组维度
df['Vessel'] = np.random.randint(1, 5, size=len(date_rng))

print("原始DataFrame前5行：")
print(df.head())

登录后复制

2. 构建按半年间隔的自定义索引

pivot_table函数允许我们在index参数中传入一个列表，从而创建多级行索引。为了实现按半年分组，我们需要两部分信息：年份和半年标识（例如“H1”代表上半年，“H2”代表下半年）。

年份： 可以直接通过 df.index.year 获取。
半年标识： 我们可以利用 df.index.month 结合 np.where 函数来判断月份属于上半年（1-6月）还是下半年（7-12月）。

# 使用 np.where 创建半年标识
# 如果月份小于等于6，则为“H1”（上半年），否则为“H2”（下半年）
half_year_label = np.where(df.index.month <= 6, "H1", "H2")

# 将年份和半年标识组合成多级索引
custom_index = [df.index.year, half_year_label]

登录后复制

3. 创建按半年分组的数据透视表

有了自定义索引后，我们就可以将其传递给pd.pivot_table的index参数。同时，指定columns为Vessel，values为需要聚合的列，aggfunc为聚合函数（例如nunique计算唯一值数量）。

pivot_df = pd.pivot_table(
    df,
    index=custom_index,         # 使用自定义的年份和半年标识作为行索引
    columns='Vessel',           # 'Vessel' 作为列
    values=['Column1', 'Column2', 'Column3'], # 需要聚合的列
    aggfunc='nunique'           # 聚合函数：计算唯一值的数量
)

print("\n按半年分组的数据透视表：")
print(pivot_df)

登录后复制

输出结果将是一个多级索引的DataFrame，其中行索引的第一级是年份，第二级是半年标识（H1/H2），列索引的第一级是原始数据的列名，第二级是Vessel的值。

        Column1                   Column2                   Column3                  
Vessel        1     2     3     4       1     2     3     4       1     2     3     4
2023 H1    XX.0  XX.0  XX.0  XX.0    XX.0  XX.0  XX.0  XX.0    XX.0  XX.0  XX.0  XX.0
     H2    YY.0  YY.0  YY.0  YY.0    YY.0  YY.0  YY.0  YY.0    YY.0  YY.0  YY.0  YY.0
2024 H1     ZZ.0  ZZ.0   NaN  ZZ.0     ZZ.0  ZZ.0   NaN  ZZ.0     ZZ.0  ZZ.0   NaN  ZZ.0

登录后复制

注：XX, YY, ZZ 代表实际聚合后的数值。

Brev AI

Brev.ai：搭载Suno AI V3.5技术的免费AI音乐生成器

437

查看详情

4. 将索引转换为日期时间格式（可选）

虽然上述数据透视表已经实现了按半年分组，但其行索引仍是(年, 半年标识) 的元组形式。在某些情况下，例如进行时间序列分析或绘图时，我们可能希望将这些索引转换为标准的datetime对象，代表每个半年的起始日期。

我们可以遍历当前的行索引，根据年份和半年标识构建新的日期字符串，然后使用pd.to_datetime进行转换。

pivot_df.index = [
    pd.to_datetime(f'{year}-{"01-01" if half == "H1" else "07-01"}') # 注意H2是7月1日开始
    for year, half in pivot_df.index
]

print("\n索引转换为日期时间格式后的数据透视表：")
print(pivot_df)

登录后复制

现在，数据透视表的行索引将是datetime对象，更便于后续的时间序列操作。

           Column1                   Column2                   Column3                  
Vessel           1     2     3     4       1     2     3     4       1     2     3     4
2023-01-01    XX.0  XX.0  XX.0  XX.0    XX.0  XX.0  XX.0  XX.0    XX.0  XX.0  XX.0  XX.0
2023-07-01    YY.0  YY.0  YY.0  YY.0    YY.0  YY.0  YY.0  YY.0    YY.0  YY.0  YY.0  YY.0
2024-01-01     ZZ.0  ZZ.0   NaN  ZZ.0     ZZ.0  ZZ.0   NaN  ZZ.0     ZZ.0  ZZ.0   NaN  ZZ.0

登录后复制

总结与注意事项

灵活性： 这种方法的核心在于利用np.where或自定义函数创建灵活的时间分组标识。您可以根据需要调整条件，实现任意长度的自定义时间间隔（例如，每3个月、每季度、甚至不规则的月份组合）。
多级索引： pivot_table的index参数接受一个列表，这使得创建多级行索引变得非常方便，有助于在更细粒度上组织数据。
aggfunc选择： aggfunc参数非常灵活，可以接受字符串（如'mean', 'sum', 'count', 'nunique'）、函数（如np.mean, np.sum）或函数列表。根据您的分析需求选择合适的聚合函数。
索引转换： 将自定义的字符串/元组索引转换为datetime对象，可以极大地提高数据在时间序列分析和可视化方面的可用性。
数据类型： 确保日期列的数据类型是datetime类型，否则无法使用.dt访问器。如果不是，请先使用pd.to_datetime()进行转换。

通过本教程，您应该能够熟练地在Pandas中创建按半年间隔分组的数据透视表，并根据需要将索引转换为标准的日期时间格式，从而更好地支持您的数据分析工作。

以上就是Pandas数据透视表：按半年间隔灵活分组聚合的详细内容，更多请关注php中文网其它相关文章！