Pandas教程：基于日期和分组条件智能填充DataFrame中的NaN值

霞舞

发布时间：2025-10-17 14:09:01

726人浏览过

来源于php中文网

原创

Pandas教程：基于日期和分组条件智能填充DataFrame中的NaN值

本教程演示如何使用pandas在分组dataframe中根据日期条件智能填充`nan`值。通过结合`groupby().ffill()`实现组内前向填充，并利用`where()`方法根据`date`列与填充后的`closing date`进行比较，精确控制填充范围，从而解决仅在`date`小于或等于`closing date`时填充的需求。

引言

在数据处理和分析中，我们经常会遇到需要填充缺失值（NaN）的情况。特别是在处理时间序列或分组数据时，填充逻辑可能需要结合其他列的值和分组信息。本教程将介绍一种高效且灵活的方法，利用Pandas的groupby()、ffill()（前向填充）和where()方法，实现在分组数据中根据日期条件智能填充特定列的NaN值。

问题描述

假设我们有一个包含客户设备、日期和截止日期（Closing Date）的DataFrame。对于每个Customer-Equipment组，Closing Date可能只在第一行有值，而后续行是NaN。我们的目标是，将这些NaN值填充为该组内最近的有效Closing Date，但有一个关键条件：只有当当前行的Date小于或等于填充后的Closing Date时，才进行填充。如果Date超出Closing Date，则该行的Closing Date应保持为NaN。

以下是原始数据的一个示例：

Customer-Equipment	Date	Closing Date
Customer1 - Equipment A	2023-01-01	2023-01-05
Customer1 - Equipment A	2023-01-02	NaN
Customer1 - Equipment A	2023-01-03	NaN
Customer1 - Equipment A	2023-01-04	NaN
Customer1 - Equipment A	2023-01-05	NaN
Customer1 - Equipment A	2023-01-06	NaN
Customer2 - Equipment H	2023-01-01	2023-01-02
Customer2 - Equipment H	2023-01-02	NaN
Customer2 - Equipment H	2023-01-03	NaN

我们期望的输出结果如下：

Customer-Equipment	Date	Closing Date
Customer1 - Equipment A	2023-01-01	2023-01-05
Customer1 - Equipment A	2023-01-02	2023-01-05
Customer1 - Equipment A	2023-01-03	2023-01-05
Customer1 - Equipment A	2023-01-04	2023-01-05
Customer1 - Equipment A	2023-01-05	2023-01-05
Customer1 - Equipment A	2023-01-06	NaN
Customer2 - Equipment H	2023-01-01	2023-01-02
Customer2 - Equipment H	2023-01-02	2023-01-02
Customer2 - Equipment H	2023-01-03	NaN

数据准备

首先，我们创建示例DataFrame并确保日期列为Pandas的datetime类型，以便进行正确的日期比较。

import pandas as pd
import numpy as np

# 原始数据
data = {
    'Customer-Equipment': [
        'Customer1 - Equipment A', 'Customer1 - Equipment A', 'Customer1 - Equipment A',
        'Customer1 - Equipment A', 'Customer1 - Equipment A', 'Customer1 - Equipment A',
        'Customer2 - Equipment H', 'Customer2 - Equipment H', 'Customer2 - Equipment H'
    ],
    'Date': [
        '2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05',
        '2023-01-06', '2023-01-01', '2023-01-02', '2023-01-03'
    ],
    'Closing Date': [
        '2023-01-05', np.nan, np.nan, np.nan, '2023-01-05', np.nan, # 注意：这里修改了原始问题中Customer1的2023-01-05为NaN，以更好地演示ffill
        '2023-01-02', np.nan, np.nan
    ]
}
df = pd.DataFrame(data)

# 将日期列转换为datetime类型
df['Date'] = pd.to_datetime(df['Date'])
df['Closing Date'] = pd.to_datetime(df['Closing Date'])

print("原始DataFrame:")
print(df)

解决方案详解

解决此问题主要分为两个步骤：首先，在每个分组内对Closing Date进行前向填充；其次，根据Date列和填充后的Closing Date进行条件判断，保留符合条件的填充值。

步骤一：组内前向填充 Closing Date

ffill()（forward fill）方法用于将NaN值替换为前一个非NaN值。结合groupby()，我们可以确保填充操作仅在每个Customer-Equipment组内部进行，而不会跨组。

# 1. 对每个'Customer-Equipment'组进行前向填充
# 这一步会填充所有NaN，但我们后续会根据条件进行过滤
s_filled = df.groupby('Customer-Equipment')['Closing Date'].ffill()
print("\n经过ffill后的'Closing Date'系列:")
print(s_filled)

执行此步骤后，s_filled系列将包含每个组内所有被前向填充的Closing Date。例如，Customer1 - Equipment A组的2023-01-02到2023-01-05的Closing Date都会被填充为2023-01-05。需要注意的是，如果一个组的Closing Date一直为NaN，或者其第一个有效值出现在较晚的日期，ffill()也会相应地处理。

MCP Market

MCP Servers集合平台，帮你找到最好的MCP服务器

下载

步骤二：按日期条件过滤填充结果

前向填充可能导致某些行的Closing Date被填充，但其对应的Date已经超出了这个Closing Date（例如2023-01-06的Date超出了2023-01-05的Closing Date）。为了满足“仅在Date小于或等于Closing Date时填充”的条件，我们需要使用where()方法。

Series.where(cond, other=NaN)方法根据条件cond保留Series中的值。如果cond为True，则保留原值；如果cond为False，则替换为other（默认为NaN）。

在这里，我们的条件是s_filled.ge(df['Date'])，即填充后的Closing Date大于或等于当前行的Date。

# 2. 使用where方法根据日期条件进行过滤
# s_filled.ge(df['Date']) 创建一个布尔系列，判断填充后的Closing Date是否大于等于当前Date
df['Closing Date'] = s_filled.where(s_filled.ge(df['Date']))

通过这一步，s_filled中不满足Closing Date >= Date条件的那些值将被替换为NaN，从而实现了我们所需的条件填充逻辑。

完整代码示例

将以上两个步骤整合到一起，形成完整的解决方案：

import pandas as pd
import numpy as np

# 原始数据
data = {
    'Customer-Equipment': [
        'Customer1 - Equipment A', 'Customer1 - Equipment A', 'Customer1 - Equipment A',
        'Customer1 - Equipment A', 'Customer1 - Equipment A', 'Customer1 - Equipment A',
        'Customer2 - Equipment H', 'Customer2 - Equipment H', 'Customer2 - Equipment H'
    ],
    'Date': [
        '2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05',
        '2023-01-06', '2023-01-01', '2023-01-02', '2023-01-03'
    ],
    'Closing Date': [
        '2023-01-05', np.nan, np.nan, np.nan, np.nan, np.nan, # 保持原始问题中的NaN，以便ffill更明显
        '2023-01-02', np.nan, np.nan
    ]
}
df = pd.DataFrame(data)

# 将日期列转换为datetime类型
df['Date'] = pd.to_datetime(df['Date'])
df['Closing Date'] = pd.to_datetime(df['Closing Date'])

print("--- 原始DataFrame ---")
print(df)
print("\n" + "="*30 + "\n")

# 步骤1: 组内前向填充 'Closing Date'
# 这一步会填充所有NaN，但我们后续会根据条件进行过滤
s_filled = df.groupby('Customer-Equipment')['Closing Date'].ffill()

# 步骤2: 使用where方法根据日期条件进行过滤
# s_filled.ge(df['Date']) 创建一个布尔系列，判断填充后的Closing Date是否大于等于当前Date
df['Closing Date'] = s_filled.where(s_filled.ge(df['Date']))

print("--- 处理后的DataFrame ---")
print(df)

输出结果:

--- 原始DataFrame ---
        Customer-Equipment       Date Closing Date
0  Customer1 - Equipment A 2023-01-01   2023-01-05
1  Customer1 - Equipment A 2023-01-02          NaT
2  Customer1 - Equipment A 2023-01-03          NaT
3  Customer1 - Equipment A 2023-01-04          NaT
4  Customer1 - Equipment A 2023-01-05          NaT
5  Customer1 - Equipment A 2023-01-06          NaT
6  Customer2 - Equipment H 2023-01-01   2023-01-02
7  Customer2 - Equipment H 2023-01-02          NaT
8  Customer2 - Equipment H 2023-01-03          NaT

==============================

--- 处理后的DataFrame ---
        Customer-Equipment       Date Closing Date
0  Customer1 - Equipment A 2023-01-01   2023-01-05
1  Customer1 - Equipment A 2023-01-02   2023-01-05
2  Customer1 - Equipment A 2023-01-03   2023-01-05
3  Customer1 - Equipment A 2023-01-04   2023-01-05
4  Customer1 - Equipment A 2023-01-05   2023-01-05
5  Customer1 - Equipment A 2023-01-06          NaT
6  Customer2 - Equipment H 2023-01-01   2023-01-02
7  Customer2 - Equipment H 2023-01-02   2023-01-02
8  Customer2 - Equipment H 2023-01-03          NaT

注意事项

日期类型: 确保所有涉及比较的日期列都已转换为Pandas的datetime类型。如果它们是字符串，比较可能不会按预期工作。
数据排序: ffill()操作依赖于数据的顺序。在本例中，Date列在每个Customer-Equipment组内是按升序排列的。如果您的数据不是这样，您可能需要在groupby()之前先对DataFrame进行sort_values()操作，例如：
```
df = df.sort_values(by=['Customer-Equipment', 'Date'])
```
效率: 这种方法利用了Pandas的矢量化操作，相比于使用apply()配合自定义lambda函数进行行迭代，效率要高得多，尤其是在处理大型数据集时。