
在数据分析实践中,我们经常会遇到时间序列数据不连续的情况,尤其是在数据按某个类别(如产品id、客户键等)分组时。例如,一个dataframe可能包含日期、分组键和对应的数值,但某些日期在特定分组下可能没有记录,导致数据稀疏。
考虑以下原始DataFrame df:
import pandas as pd
data = {
'date': ['2023-12-01', '2023-12-03', '2023-12-04', '2023-12-01'],
'key': ['K0', 'K1', 'K0', 'K1'],
'value': [9, 3, 10, 8]
}
df = pd.DataFrame(data)
df['date'] = pd.to_datetime(df['date'])
print("原始DataFrame:")
print(df)输出:
原始DataFrame:
date key value
0 2023-12-01 K0 9
1 2023-12-03 K1 3
2 2023-12-04 K0 10
3 2023-12-01 K1 8可以看到,对于key为K0和K1的组,2023-12-02和2023-12-03(对K0)以及2023-12-02和2023-12-04(对K1)等日期缺失。我们的目标是为每个key组填充所有缺失的日期行,并为新生成的行中的value列赋予一个默认值(例如0),同时保持key列的正确性。
解决这类问题的核心思路是:首先确定一个完整的日期范围,然后针对每个分组,将其时间序列数据与这个完整日期范围进行对齐(reindex),最后对新生成的缺失值进行填充。
为了确保所有分组都拥有一个统一的、完整的日期序列,我们首先需要从原始DataFrame中找出最早和最晚的日期。
mx, mn = df["date"].max(), df["date"].min()
print(f"全局最小日期: {mn}, 全局最大日期: {mx}")我们将创建一个辅助函数,该函数将应用于groupby操作的每个子DataFrame(即每个分组)。
def fill_missing_dates_for_group(group_df, global_max_date, global_min_date):
"""
为单个分组DataFrame填充缺失日期行并进行数据插补。
参数:
group_df (pd.DataFrame): 当前分组的DataFrame。
global_max_date (pd.Timestamp): 整个数据集的最大日期。
global_min_date (pd.Timestamp): 整个数据集的最小日期。
返回:
pd.DataFrame: 填充并插补后的分组DataFrame。
"""
# 确保日期列为datetime类型
group_df["date"] = pd.to_datetime(group_df["date"])
# 生成一个从全局最小日期到最大日期的完整日期范围
full_date_range = pd.date_range(global_min_date, global_max_date)
# 设置日期列为索引,然后使用完整日期范围进行reindex
# reindex操作会在缺失日期处引入NaN行
reindexed_df = group_df.set_index("date").reindex(full_date_range).reset_index()
# reindex后,原有的日期列现在是新的索引,reset_index将其变为名为'index'的列
# 我们将其重命名回'date'以保持一致性
reindexed_df = reindexed_df.rename(columns={'index': 'date'})
# 填充'key'列:由于reindex引入的NaN行,其'key'列会是NaN。
# 使用ffill()(向前填充)和bfill()(向后填充)组合,确保所有新行都有正确的'key'。
# ffill()会填充组内之前的值,bfill()会填充组内之后的值,处理边界情况。
reindexed_df["key"] = reindexed_df["key"].ffill().bfill()
# 填充'value'列:将reindex引入的NaN值填充为0,并转换为整数类型。
reindexed_df["value"] = reindexed_df["value"].fillna(0).astype(int)
return reindexed_df最后,我们将使用groupby().apply()方法将上述函数应用到DataFrame的每个key分组。group_keys=False参数可以防止groupby在结果中添加额外的分组键索引层。
output_df = df.groupby("key", group_keys=False).apply(
fill_missing_dates_for_group,
global_max_date=mx,
global_min_date=mn
)
print("\n填充缺失日期后的DataFrame:")
print(output_df)输出:
填充缺失日期后的DataFrame:
date key value
0 2023-12-01 K0 9
1 2023-12-02 K0 0
2 2023-12-03 K0 0
3 2023-12-04 K0 10
0 2023-12-01 K1 8
1 2023-12-02 K1 0
2 2023-12-03 K1 3
3 2023-12-04 K1 0可以看到,每个key组现在都包含了从2023-12-01到2023-12-04的完整日期序列,并且缺失的value值已被填充为0。
以下是整个过程的完整代码示例:
import pandas as pd
# 1. 原始数据准备
data = {
'date': ['2023-12-01', '2023-12-03', '2023-12-04', '2023-12-01'],
'key': ['K0', 'K1', 'K0', 'K1'],
'value': [9, 3, 10, 8]
}
df = pd.DataFrame(data)
df['date'] = pd.to_datetime(df['date'])
print("--- 原始DataFrame ---")
print(df)
print("-" * 30)
# 2. 确定全局日期范围
global_max_date, global_min_date = df["date"].max(), df["date"].min()
# 3. 定义分组处理函数
def fill_missing_dates_for_group(group_df, global_max_date, global_min_date):
"""
为单个分组DataFrame填充缺失日期行并进行数据插补。
"""
group_df["date"] = pd.to_datetime(group_df["date"])
full_date_range = pd.date_range(global_min_date, global_max_date)
reindexed_df = group_df.set_index("date").reindex(full_date_range).reset_index()
reindexed_df = reindexed_df.rename(columns={'index': 'date'})
reindexed_df["key"] = reindexed_df["key"].ffill().bfill()
reindexed_df["value"] = reindexed_df["value"].fillna(0).astype(int)
return reindexed_df
# 4. 应用函数到每个分组
output_df = df.groupby("key", group_keys=False).apply(
fill_missing_dates_for_group,
global_max_date=global_max_date,
global_min_date=global_min_date
)
print("\n--- 填充缺失日期后的DataFrame ---")
print(output_df)
print("-" * 30)通过结合Pandas的groupby()、date_range()和reindex()功能,我们可以有效地处理分组时间序列数据中的日期缺失问题。这种方法不仅能够填充缺失的日期行,还能灵活地对新增行的其他列进行插补,从而生成一个完整、规整的数据集,为后续的数据分析和建模奠定坚实基础。在实际应用中,根据数据规模和业务需求,可以选择最适合的填充策略和性能优化方案。
以上就是Pandas DataFrame按组填充缺失日期行与数据插补指南的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号