使用最近邻插补时为何仍存在缺失值？原因分析与替代方案-Python教程-PHP中文网

使用最近邻插补时为何仍存在缺失值？原因分析与替代方案

最近邻插补（`interpolate(method='nearest')`）依赖数据中邻近非空值进行填充，但当缺失值位于序列端点或周围无有效邻值时，该方法无法完成插补，导致部分nan残留。

在Pandas中，Series.interpolate(method='nearest') 并非基于多维特征的KNN算法，而是一种一维序列插值方法——它仅依据索引顺序查找前后最近的非空值（即按行号位置而非语义相似性），且默认不处理首尾两端的连续NaN。你遇到的第416和417行年龄缺失，极可能位于age列的末尾段（如测试集末尾），其后已无有效值可供“向后取最近”，而前方若也无非空值（或被截断），则插补失败。

验证方式如下：

# 检查age列中NaN的位置及上下文
nan_indices = titanic_Test[titanic_Test['age'].isna()].index.tolist()
print("NaN indices:", nan_indices)
print("Surrounding age values:")
print(titanic_Test.loc[nan_indices[0]-2:nan_indices[-1]+2, 'age'])

✅ 正确做法：若需基于多维特征（如pclass, sex, parch, fare等）进行真正的“最近邻”插补，应使用sklearn.impute.KNNImputer：

Petalica Paint

用AI为你的画自动上色！

下载

from sklearn.impute import KNNImputer
import pandas as pd

# 选择用于相似性计算的数值型特征（注意：需先编码类别变量）
features = ['pclass', 'sex', 'sibsp', 'parch', 'fare']
X_test = titanic_Test[features].copy()

# 若sex为字符串（'male'/'female'），需先编码
if X_test['sex'].dtype == 'object':
    X_test['sex'] = X_test['sex'].map({'male': 0, 'female': 1})

imputer = KNNImputer(n_neighbors=5)
titanic_Test['age'] = imputer.fit_transform(X_test)[:, features.index('age')]

⚠️ 注意事项：