Python如何检测异常数据—Z-score/IQR算法详解

爱谁谁
发布: 2025-07-12 14:17:01
原创
782人浏览过

异常数据检测常用方法包括z-score和iqr。1. z-score适用于正态分布数据,通过计算数据点与均值相差多少个标准差,绝对值大于3则判定为异常;2. iqr适用于非正态分布数据,通过计算四分位距并设定上下界(q1-1.5×iqr和q3+1.5×iqr),超出范围的数值为异常值。选择方法应根据数据分布情况决定,z-score更直观但对分布敏感,iqr更稳健且通用,可结合可视化手段提升判断准确性。

Python如何检测异常数据—Z-score/IQR算法详解

检测异常数据是数据分析中一个非常关键的步骤,尤其是在做数据清洗或建模前。Python 中常用的两种方法是 Z-score 和 IQR(四分位距)算法。这两种方法各有适用场景,也都有各自的优缺点。

Python如何检测异常数据—Z-score/IQR算法详解

下面我们就来详细说说它们分别是怎么工作的,以及在实际中该如何使用。


什么是异常值?为什么需要检测?

异常值指的是与整体数据分布明显偏离的数值,可能是由于录入错误、设备故障、极端情况等原因造成的。如果不加以处理,可能会对后续分析造成误导,比如影响模型训练效果、统计结论偏差等。

立即学习Python免费学习笔记(深入)”;

Python如何检测异常数据—Z-score/IQR算法详解

所以,在进行任何分析之前,先识别并处理这些“离群点”是非常有必要的。


Z-score 方法:适用于正态分布的数据

Z-score 的核心思想是看某个数据点距离均值有多少个标准差。一般来说,如果一个值的 Z-score 绝对值大于3,就认为它是一个异常值。

Python如何检测异常数据—Z-score/IQR算法详解

公式如下:

Z = (x - μ) / σ
登录后复制

其中:

  • x 是当前数据点
  • μ 是数据的平均值
  • σ 是数据的标准差

实现步骤:

  • 计算数据集的平均值和标准差
  • 对每个数据点计算 Z-score
  • 设置阈值(通常是 3 或 -3)
  • 筛选出超出阈值的数据点作为异常值

示例代码:

import numpy as np

data = np.array([1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 6, 100])  # 假设100是异常值
mean = np.mean(data)
std = np.std(data)
z_scores = [(x - mean) / std for x in data]
outliers = [x for x, z in zip(data, z_scores) if abs(z) > 3]
登录后复制
注意:Z-score 对数据分布敏感,更适合近似正态分布的情况。如果你的数据偏态严重或者有大量极端值,这个方法可能不太靠谱。

IQR 方法:适用于非正态分布数据

IQR(Interquartile Range)即四分位距,是上四分位数(Q3)与下四分位数(Q1)之间的差值。这种方法不依赖于数据是否服从正态分布,因此更通用一些。

公式如下:

IQR = Q3 - Q1
登录后复制

异常值判断范围为:

  • 下界:Q1 - 1.5 * IQR
  • 上界:Q3 + 1.5 * IQR

落在这个区间之外的值就是异常值。

实现步骤:

  • 找到 Q1 和 Q3
  • 计算 IQR
  • 定义上下限
  • 筛选超出范围的数据点

示例代码:

import numpy as np

data = np.array([1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 6, 100])
Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = [x for x in data if x < lower_bound or x > upper_bound]
登录后复制

这种方法在可视化时也常用于箱线图(boxplot),是探索性数据分析中的常见工具


怎么选择 Z-score 还是 IQR?

这取决于你的数据分布情况和分析目标:

  • 如果数据大致符合正态分布,用 Z-score 更直观;
  • 如果数据分布偏斜或者你不确定分布类型,IQR 更稳健;
  • 可以同时尝试两种方法,对比结果,有助于发现更多潜在问题。

此外,也可以结合可视化手段(如散点图、箱线图)辅助判断。


基本上就这些。两种方法都不复杂,但在实际应用中容易忽略细节,比如数据标准化、边界定义方式等。掌握好这些小技巧,能让你在数据预处理阶段少走不少弯路。

以上就是Python如何检测异常数据—Z-score/IQR算法详解的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号