如何用最近邻法填补缺失值时避免残留 NaN-Python教程-PHP中文网

如何用最近邻法填补缺失值时避免残留 NaN

最近邻插值法（`interpolate(method='nearest')`）在处理缺失年龄值时，可能因数据局部稀疏或边界位置缺乏邻近有效值而无法填充部分 nan，尤其在测试集分布偏离训练集时更易发生。

pandas.Series.interpolate(method='nearest') 并非基于多维特征的 KNN 算法，而是一种一维序列插值方法：它仅沿 Series 的索引顺序查找前后最近的非空值（即按行号/索引位置找“相邻”，而非按 pclass、sex、fare 等特征找语义相近样本）。因此，当 NaN 出现在序列开头、结尾，或连续多个 NaN 块中时，该方法会失效——这正是你遇到的 index 416 和 417 仍为 NaN 的根本原因。

例如：

import pandas as pd
s = pd.Series([None, None, 25.0, None, 30.0])
print(s.interpolate(method='nearest'))
# 输出：[NaN, 25.0, 25.0, 25.0, 30.0] → 开头两个 NaN 无法被填充

✅ 正确做法：若需基于多维相似性（如 pclass, sex, fare）进行年龄插补，应使用真正的 k-近邻回归（KNNImputer）：

Petalica Paint

用AI为你的画自动上色！

下载

from sklearn.impute import KNNImputer
import numpy as np

# 构造用于插补的特征矩阵（建议包含与年龄强相关的列）
features = ['pclass', 'sex', 'sibsp', 'parch', 'fare']
X_test = titanic_Test[features].copy()

# 注意：KNNImputer 要求输入为数值型且无 NaN（故仅对 age 列单独处理时需谨慎）
# 更稳妥的做法：在完整数据集（含训练集）上拟合，再转换测试集
imputer = KNNImputer(n_neighbors=5)
titanic_Test['age_imputed'] = imputer.fit_transform(
    pd.concat([titanic_Train[features], titanic_Test[features]], axis=0)
)[len(titanic_Train):, features.index('pclass')]  # 示例示意，实际需对齐列

⚠️ 关键注意事项：

interpolate(method='nearest') 是索引驱动，不考虑特征语义；
KNNImputer 是特征驱动，但要求所有参与计算的列均无缺失（否则需级联处理或先用简单策略填充）；
Titanic 测试集中 age 缺失往往集中在特定子群（如低票价二等舱女性），建议结合分组统计（如 titanic_Train.groupby(['pclass','sex'])['age'].median()）作为兜底策略。

综上，残留 NaN 不是代码错误，而是方法误用——请根据插补逻辑目标，明确选择「序列邻近」还是「特征相似」范式，并选用对应工具。