异常数据检测常用方法包括z-score和iqr。1. z-score适用于正态分布数据,通过计算数据点与均值相差多少个标准差,绝对值大于3则判定为异常;2. iqr适用于非正态分布数据,通过计算四分位距并设定上下界(q1-1.5×iqr和q3+1.5×iqr),超出范围的数值为异常值。选择方法应根据数据分布情况决定,z-score更直观但对分布敏感,iqr更稳健且通用,可结合可视化手段提升判断准确性。
检测异常数据是数据分析中一个非常关键的步骤,尤其是在做数据清洗或建模前。Python 中常用的两种方法是 Z-score 和 IQR(四分位距)算法。这两种方法各有适用场景,也都有各自的优缺点。
下面我们就来详细说说它们分别是怎么工作的,以及在实际中该如何使用。
异常值指的是与整体数据分布明显偏离的数值,可能是由于录入错误、设备故障、极端情况等原因造成的。如果不加以处理,可能会对后续分析造成误导,比如影响模型训练效果、统计结论偏差等。
立即学习“Python免费学习笔记(深入)”;
所以,在进行任何分析之前,先识别并处理这些“离群点”是非常有必要的。
Z-score 的核心思想是看某个数据点距离均值有多少个标准差。一般来说,如果一个值的 Z-score 绝对值大于3,就认为它是一个异常值。
公式如下:
Z = (x - μ) / σ
其中:
import numpy as np data = np.array([1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 6, 100]) # 假设100是异常值 mean = np.mean(data) std = np.std(data) z_scores = [(x - mean) / std for x in data] outliers = [x for x, z in zip(data, z_scores) if abs(z) > 3]
注意:Z-score 对数据分布敏感,更适合近似正态分布的情况。如果你的数据偏态严重或者有大量极端值,这个方法可能不太靠谱。
IQR(Interquartile Range)即四分位距,是上四分位数(Q3)与下四分位数(Q1)之间的差值。这种方法不依赖于数据是否服从正态分布,因此更通用一些。
公式如下:
IQR = Q3 - Q1
异常值判断范围为:
落在这个区间之外的值就是异常值。
import numpy as np data = np.array([1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 6, 100]) Q1 = np.percentile(data, 25) Q3 = np.percentile(data, 75) IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR outliers = [x for x in data if x < lower_bound or x > upper_bound]
这种方法在可视化时也常用于箱线图(boxplot),是探索性数据分析中的常见工具。
这取决于你的数据分布情况和分析目标:
此外,也可以结合可视化手段(如散点图、箱线图)辅助判断。
基本上就这些。两种方法都不复杂,但在实际应用中容易忽略细节,比如数据标准化、边界定义方式等。掌握好这些小技巧,能让你在数据预处理阶段少走不少弯路。
以上就是Python如何检测异常数据—Z-score/IQR算法详解的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号