
本文详细介绍了如何在pandas中创建按半年(6个月)间隔聚合的数据透视表,而非默认的按年或季度。通过结合使用`df.index.year`和`np.where`自定义月份区间,可以构建出灵活的多级索引,并进一步将这些索引转换为标准的日期时间格式,以满足更精细的数据分析和可视化需求。
在数据分析中,我们经常需要根据时间维度对数据进行聚合和汇总。Pandas的pivot_table函数是实现这一目标的强大工具。然而,当默认的按年、季度或月度聚合无法满足特定分析需求时,例如需要按半年(每6个月)进行分组时,就需要一些自定义的技巧。本教程将指导您如何实现这一目标。
首先,我们创建一个包含日期索引和随机数据的Pandas DataFrame,模拟日常数据。为了更好地演示,我们还会添加一个Vessel列,用于作为数据透视表的列。
import pandas as pd
import numpy as np
# 创建日期范围索引
date_rng = pd.date_range(start='2023-01-01', end='2024-01-05', freq='D')
# 创建随机数据
data = np.random.rand(len(date_rng), 3)
df = pd.DataFrame(data, columns=['Column1', 'Column2', 'Column3'], index=date_rng)
# 添加 'Vessel' 列,模拟分组维度
df['Vessel'] = np.random.randint(1, 5, size=len(date_rng))
print("原始DataFrame前5行:")
print(df.head())pivot_table函数允许我们在index参数中传入一个列表,从而创建多级行索引。为了实现按半年分组,我们需要两部分信息:年份和半年标识(例如“H1”代表上半年,“H2”代表下半年)。
# 使用 np.where 创建半年标识 # 如果月份小于等于6,则为“H1”(上半年),否则为“H2”(下半年) half_year_label = np.where(df.index.month <= 6, "H1", "H2") # 将年份和半年标识组合成多级索引 custom_index = [df.index.year, half_year_label]
有了自定义索引后,我们就可以将其传递给pd.pivot_table的index参数。同时,指定columns为Vessel,values为需要聚合的列,aggfunc为聚合函数(例如nunique计算唯一值数量)。
pivot_df = pd.pivot_table(
df,
index=custom_index, # 使用自定义的年份和半年标识作为行索引
columns='Vessel', # 'Vessel' 作为列
values=['Column1', 'Column2', 'Column3'], # 需要聚合的列
aggfunc='nunique' # 聚合函数:计算唯一值的数量
)
print("\n按半年分组的数据透视表:")
print(pivot_df)输出结果将是一个多级索引的DataFrame,其中行索引的第一级是年份,第二级是半年标识(H1/H2),列索引的第一级是原始数据的列名,第二级是Vessel的值。
Column1 Column2 Column3
Vessel 1 2 3 4 1 2 3 4 1 2 3 4
2023 H1 XX.0 XX.0 XX.0 XX.0 XX.0 XX.0 XX.0 XX.0 XX.0 XX.0 XX.0 XX.0
H2 YY.0 YY.0 YY.0 YY.0 YY.0 YY.0 YY.0 YY.0 YY.0 YY.0 YY.0 YY.0
2024 H1 ZZ.0 ZZ.0 NaN ZZ.0 ZZ.0 ZZ.0 NaN ZZ.0 ZZ.0 ZZ.0 NaN ZZ.0注:XX, YY, ZZ 代表实际聚合后的数值。
虽然上述数据透视表已经实现了按半年分组,但其行索引仍是(年, 半年标识) 的元组形式。在某些情况下,例如进行时间序列分析或绘图时,我们可能希望将这些索引转换为标准的datetime对象,代表每个半年的起始日期。
我们可以遍历当前的行索引,根据年份和半年标识构建新的日期字符串,然后使用pd.to_datetime进行转换。
pivot_df.index = [
pd.to_datetime(f'{year}-{"01-01" if half == "H1" else "07-01"}') # 注意H2是7月1日开始
for year, half in pivot_df.index
]
print("\n索引转换为日期时间格式后的数据透视表:")
print(pivot_df)现在,数据透视表的行索引将是datetime对象,更便于后续的时间序列操作。
Column1 Column2 Column3 Vessel 1 2 3 4 1 2 3 4 1 2 3 4 2023-01-01 XX.0 XX.0 XX.0 XX.0 XX.0 XX.0 XX.0 XX.0 XX.0 XX.0 XX.0 XX.0 2023-07-01 YY.0 YY.0 YY.0 YY.0 YY.0 YY.0 YY.0 YY.0 YY.0 YY.0 YY.0 YY.0 2024-01-01 ZZ.0 ZZ.0 NaN ZZ.0 ZZ.0 ZZ.0 NaN ZZ.0 ZZ.0 ZZ.0 NaN ZZ.0
通过本教程,您应该能够熟练地在Pandas中创建按半年间隔分组的数据透视表,并根据需要将索引转换为标准的日期时间格式,从而更好地支持您的数据分析工作。
以上就是Pandas数据透视表:按半年间隔灵活分组聚合的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号