如何使用Python清洗异常数据？缺失值处理完整方案-Python教程-PHP中文网

识别异常值和缺失值的初步诊断方法如下：1. 异常值识别可通过统计学方法（如z-score、iqr）或可视化方法（如箱线图、散点图和直方图）实现；2. 缺失值识别可使用isnull().sum()、info()或missingno库分析分布。处理策略包括：1. 删除缺失值时，可根据缺失比例选择删除行或列；2. 填充缺失值可用固定值、统计量填充、前向/后向填充、插值法或基于模型的方法；3. 处理异常值可选择剔除或修正，如封顶封底、数据变换、替换为缺失值再处理或根据业务逻辑修正。选择策略需结合数据特性、缺失类型、分析目标及模型需求综合判断。

如何使用Python清洗异常数据？缺失值处理完整方案

Python数据清洗，尤其是异常值和缺失值的处理，是数据分析绕不开的一环。它不只是简单的技术操作，更像是一门艺术，需要你对数据有深刻的理解和对业务场景的敏锐洞察。核心在于识别数据中的不一致或空缺，然后根据数据特性和分析目标选择最合适的策略，比如删除、填充或转换。这直接关系到后续模型训练的质量和分析结果的可靠性。

解决方案

数据清洗是一个迭代的过程，通常包含以下几个步骤：

导入必要的Python库，如pandas用于数据操作，numpy用于数值计算，以及matplotlib、seaborn等用于数据可视化。加载你的数据集，并进行初步的探索性分析，了解数据的基本结构、数据类型、各列的统计摘要以及是否存在明显的缺失值。识别并诊断异常值，这可能需要结合统计方法和可视化工具来发现数据中那些“离群”的点。识别并诊断缺失值，了解缺失值的分布模式和数量。根据异常值和缺失值的具体情况，选择合适的处理策略。这可能是删除整行或整列，也可能是用某种统计量或模型预测值进行填充，或者对异常值进行修正。对清洗后的数据进行再次检查和验证，确保处理结果符合预期，并且没有引入新的问题。

如何识别数据中的“脏点”：异常值与缺失值的初步诊断？

在我看来，数据清洗的第一步，也是最关键的一步，就是“诊断”。就像医生看病，你得先知道哪儿不对劲。数据里的“脏点”主要指异常值（Outliers）和缺失值（Missing Values）。

立即学习“Python免费学习笔记（深入）”；

识别异常值： 异常值，顾名思义，就是那些在数据集中显得“格格不入”的点。它们可能代表真实世界的极端情况，也可能是数据录入错误。处理它们时，我通常会先问自己：这个异常是“真”异常，还是“假”异常？

统计学方法：

Z-score（Z分数）： 当数据近似服从正态分布时，Z-score很有用。它衡量一个数据点距离均值有多少个标准差。通常，Z-score的绝对值超过2或3就被认为是异常值。

import pandas as pd
import numpy as np
from scipy import stats

# 示例数据
data = pd.Series([10, 12, 11, 13, 100, 14, 15, 12, 11])
z_scores = np.abs(stats.zscore(data))
outliers_z = data[z_scores > 2] # 阈值可以调整
print(f"Z-score识别的异常值:\n{outliers_z}")

登录后复制

IQR（四分位距）方法： 这个方法对非正态分布的数据更鲁棒。它基于数据的四分位数，定义了一个“正常”的范围。任何超出 Q1 - 1.5 * IQR 或 Q3 + 1.5 * IQR 的点都被视为异常。
```
Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers_iqr = data[(data < lower_bound) | (data > upper_bound)]
print(f"IQR识别的异常值:\n{outliers_iqr}")
```
登录后复制

可视化方法：
- 箱线图（Box Plot）： 我最常用的工具之一。它能直观地展示数据的分布、中位数、四分位数，以及超出“胡须”范围的异常点。
```
import seaborn as sns
import matplotlib.pyplot as plt

sns.boxplot(x=data)
plt.title('数据箱线图')
plt.show()
```
  登录后复制
- 散点图（Scatter Plot）和直方图（Histogram）： 对于多变量数据，散点图可以帮助发现变量间的异常关系。直方图则能展示单变量的分布，异常值通常会在分布的两端形成小高峰或孤立点。

识别缺失值： 缺失值是指数据集中某个字段没有记录值。它们产生的原因很多，可能是数据采集时漏填，也可能是数据合并时没有匹配项。

isnull().sum()： 这是最直接的办法，能快速统计每列的缺失值数量。

df = pd.DataFrame({
    'A': [1, 2, np.nan, 4, 5],
    'B': [6, np.nan, 8, 9, 10],
    'C': [11, 12, 13, 14, np.nan]
})
print(f"每列缺失值数量:\n{df.isnull().sum()}")

登录后复制

info()： 提供DataFrame的简洁摘要，包括每列的非空值数量，可以间接看出缺失值。
missingno库： 如果你想更直观地看到缺失值的分布模式，missingno库的矩阵图和条形图非常棒。它能揭示缺失值是随机分布，还是有某种模式（比如某些列总是同时缺失）。

面对缺失数据，有哪些“补救”策略，又该如何选择？

处理缺失值没有万能药，选择哪种策略取决于缺失值的类型、数量、数据本身的性质以及你后续的分析目标。这就像修补一件破损的衣服，你得看破损程度和衣服的材质。

1. 删除（Deletion）： 这是最简单粗暴的方法。

删除行（dropna()）： 如果一行中存在任何缺失值，就删除整行。
```
df_cleaned_rows = df.dropna()
print(f"删除含缺失值的行:\n{df_cleaned_rows}")
```
登录后复制

删除列（dropna(axis=1)）： 如果某一列的缺失值过多，或者该列对分析不重要，可以直接删除整列。

df_cleaned_cols = df.dropna(axis=1, how='all') # 只删除所有值都缺失的列
print(f"删除所有值都缺失的列:\n{df_cleaned_cols}")

登录后复制

优缺点： 简单快捷，能保证数据的完整性。但缺点很明显，如果缺失值很多，可能会丢失大量有用的信息，导致样本量过小，影响分析结果的代表性。我个人不到万不得已，不会轻易删除。通常，只有当缺失值占比非常小（比如低于5%），且缺失是随机分布时，才会考虑删除。

2. 填充（Imputation）： 保留数据量，但可能引入偏差。

简单填充：
- 固定值填充： 用一个常数（如0，-1，或“未知”）填充。适用于分类变量，或数值变量中0有特殊含义的情况。
```
df_filled_zero = df.fillna(0)
print(f"用0填充缺失值:\n{df_filled_zero}")
```
  登录后复制
- 统计量填充： 用该列的均值（Mean）、中位数（Median）或众数（Mode）填充。
  - 均值： 适用于数值型数据，但易受异常值影响。
  - 中位数： 对异常值不敏感，更稳健。
  - 众数： 适用于分类或离散型数据。
```
df['A_filled_mean'] = df['A'].fillna(df['A'].mean())
df['B_filled_median'] = df['B'].fillna(df['B'].median())
print(f"用均值和中位数填充:\n{df[['A_filled_mean', 'B_filled_median']]}")
```
    登录后复制
- 前向填充（ffill()）/后向填充（bfill()）： 用前一个有效值或后一个有效值填充。在时间序列数据中非常有用，比如传感器数据中断时。
```
df_ffill = df.fillna(method='ffill')
print(f"前向填充:\n{df_ffill}")
```
  登录后复制
高级填充：
- 插值法（interpolate()）： 根据已知数据点的值来推断缺失值。pandas提供了多种插值方法，如线性插值、多项式插值、样条插值等。对于时间序列数据，我经常使用线性插值。
```
df_interpolated = df.interpolate(method='linear')
print(f"线性插值:\n{df_interpolated}")
```
  登录后复制
- 基于模型的填充： 比如K近邻（KNNImputer）或迭代插补（IterativeImputer，也称为MICE）。这些方法会根据其他特征来预测缺失值，通常效果更好，但计算成本也更高。
```
from sklearn.impute import KNNImputer

imputer = KNNImputer(n_neighbors=2)
df_imputed_knn = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
print(f"KNN填充:\n{df_imputed_knn}")
```
  登录后复制
选择策略：
- 缺失值随机分布（MCAR/MAR）且数量不多： 简单填充或插值。
- 缺失值有模式（MNAR）： 需要更复杂的模型填充，甚至可能需要重新设计数据收集方式。
- 时间序列数据： 前向/后向填充或线性插值是首选。
- 对模型影响： 有些模型对缺失值不敏感（如决策树），有些则需要提前处理（如线性回归、神经网络）。

“清洗”异常值：是剔除还是修正，实战中如何权衡？

处理异常值，远比处理缺失值复杂，因为异常值往往蕴含着重要的信息，也可能是真实世界中的极端情况。是直接扔掉，还是想办法“驯服”它们？这需要你根据具体业务场景和数据特点来权衡。

1. 剔除（Removal）： 最直接的方式就是删除包含异常值的行。

直接删除： 如果异常值是明显的录入错误，或者它们在数据集中数量极少且不重要，直接删除它们是最省事的。

# 假设我们用IQR方法识别出了异常值，并想删除它们
data_no_outliers = data[(data >= lower_bound) & (data <= upper_bound)]
print(f"剔除异常值后的数据:\n{data_no_outliers}")

登录后复制

优缺点： 简单快捷，可以避免异常值对模型训练产生过大影响。但缺点和删除缺失值一样，可能导致数据量减少，丢失潜在有用的信息。如果异常值代表了某种罕见但重要的事件（比如欺诈交易），你直接删除了，那你的模型可能就学不到这些关键模式了。

2. 修正/转换（Correction/Transformation）： 保留数据，但以某种方式调整异常值，使其对分析的影响减小。

封顶/封底（Capping/Winsorization）： 这是一种我个人非常喜欢的方法。它不是直接删除异常值，而是将超出某个阈值的异常值替换为该阈值。例如，将所有大于99分位点的值都设为99分位点的值，所有小于1分位点的值都设为1分位点的值。
```
# 示例：将超出IQR范围的异常值进行封顶/封底
data_capped = data.copy()
data_capped[data_capped < lower_bound] = lower_bound
data_capped[data_capped > upper_bound] = upper_bound
print(f"封顶/封底后的数据:\n{data_capped}")
```
登录后复制
- 优缺点： 保留了所有数据点，避免了信息损失。它能有效减少极端值的影响，同时保持数据的整体结构。
- 适用场景： 当异常值可能是真实存在的极端情况，或者你不想损失任何数据时。
数据变换（Transformation）： 对数据进行数学变换，如对数变换（np.log()）、平方根变换（np.sqrt()）等。这些变换可以使数据的分布更接近正态，从而“压缩”极端值，减少它们的影响。
```
# 对数变换示例 (适用于非负偏态分布数据)
data_positive = data[data > 0] # 对数变换要求数据为正
data_log_transformed = np.log(data_positive)
print(f"对数变换后的数据:\n{data_log_transformed}")
```
登录后复制
- 优缺点： 能有效处理偏态分布和异常值，使数据更适合某些需要正态性假设的模型。但缺点是变换后的数据解释性变差，需要逆变换才能回到原始尺度。
- 适用场景： 数据严重偏态，且异常值是分布尾部的一部分。
替换为缺失值再处理： 有时候，我会把识别出来的异常值直接替换成np.nan，然后像处理普通缺失值一样，用填充策略去处理它们。这相当于把异常值视为一种特殊类型的“缺失”，然后用更灵活的填充方法来“修正”它们。
业务逻辑修正： 这是最高级的处理方式，也是最依赖人类经验的。如果异常值是由于某个已知的业务规则错误或数据录入错误造成的，那么最准确的方法就是根据业务逻辑手动修正。比如，年龄出现200岁，明显是错的，直接修正为合理值或者删除。