Python中如何实现多变量异常检测？马氏距离方法

蓮花仙者

发布时间：2025-07-18 16:17:01

707人浏览过

来源于php中文网

原创

马氏距离在python中实现多变量异常检测时具有明显优势，尤其在变量间存在相关性时优于欧氏距离。1. 其核心在于通过协方差矩阵消除变量相关性并归一化尺度，从而准确衡量点与分布中心的距离；2. 实现流程包括：生成或加载数据、计算均值与协方差矩阵、求解每个点的马氏距离、设定基于卡方分布的阈值识别异常点、可视化结果；3. 常见挑战包括协方差矩阵不可逆、计算成本高、阈值选择困难和训练数据污染，对应的优化策略为正则化或降维、使用求解器代替矩阵求逆、结合统计与经验设定阈值、采用鲁棒估计方法；4. 除马氏距离外，其他常用方法包括孤立森林、单类svm、局部异常因子、自编码器和dbscan，选择时应结合数据特性与业务需求。

Python中如何实现多变量异常检测？马氏距离方法

在Python中实现多变量异常检测，马氏距离（Mahalanobis Distance）无疑是一个非常经典且有效的方法，尤其当你的数据变量之间存在相关性时，它能比欧氏距离更好地刻画数据点与数据分布中心的“距离”。简单来说，它衡量的是一个点到分布中心的距离，并考虑了数据内部的协方差结构，而非仅仅是绝对的数值差异。

解决方案

马氏距离的核心在于它能将数据点投影到协方差矩阵定义的空间中，从而消除变量间的相关性影响，并对不同尺度的变量进行归一化。这使得它在处理高维、多变量且各变量间可能相互关联的数据异常检测时，显得尤为强大。

以下是一个在Python中实现马氏距离进行异常检测的基本流程和代码示例：

立即学习“Python免费学习笔记（深入）”；

import numpy as np
from scipy.spatial.distance import mahalanobis
from scipy.stats import chi2
import matplotlib.pyplot as plt
import pandas as pd

# 1. 生成模拟数据
# 假设我们有两组数据，一组是正常的，一组是异常的
np.random.seed(42)
# 正常数据：均值[0, 0]，协方差有一定相关性
mean_normal = [0, 0]
cov_normal = [[1, 0.8], [0.8, 1]] # 变量间有正相关
normal_data = np.random.multivariate_normal(mean_normal, cov_normal, 200)

# 异常数据：远离正常分布中心
outlier_data = np.array([[5, -5], [-4, 6], [7, 7], [0.5, 0.5]]) # 故意放置几个异常点

# 合并数据
data = np.vstack((normal_data, outlier_data))

# 2. 计算训练数据的均值和协方差矩阵
# 通常，我们会用“正常”数据（或大部分数据）来构建这个模型
# 这里我们假设normal_data是我们的“正常”训练集
mu = np.mean(normal_data, axis=0)
cov_matrix = np.cov(normal_data, rowvar=False) # rowvar=False表示每一列是一个变量

# 检查协方差矩阵是否可逆，如果不可逆，可能需要进行正则化处理
# 例如：cov_matrix = cov_matrix + np.eye(cov_matrix.shape[0]) * 1e-6
try:
    inv_cov_matrix = np.linalg.inv(cov_matrix)
except np.linalg.LinAlgError:
    print("协方差矩阵不可逆，可能需要进行正则化或降维处理。")
    # 这里可以添加一些处理逻辑，比如PCA降维，或者L2正则化
    # 简单粗暴的正则化：
    inv_cov_matrix = np.linalg.inv(cov_matrix + np.eye(cov_matrix.shape[0]) * 1e-6)


# 3. 计算每个数据点的马氏距离
mahalanobis_distances = []
for i in range(data.shape[0]):
    dist = mahalanobis(data[i], mu, inv_cov_matrix)
    mahalanobis_distances.append(dist)

mahalanobis_distances = np.array(mahalanobis_distances)

# 4. 设定异常检测阈值
# 对于符合多元正态分布的数据，马氏距离的平方服从卡方分布
# 自由度为变量的数量（维度）
df = data.shape[1] # 维度
# 我们可以选择一个显著性水平，例如0.01（99%置信区间）
# 超过这个阈值的点就被认为是异常
threshold_chi2 = chi2.ppf(0.99, df) # 99%分位数

print(f"卡方分布（自由度={df}）的99%分位数阈值: {threshold_chi2:.2f}")

# 5. 识别异常点
anomalies_indices = np.where(mahalanobis_distances > threshold_chi2)[0]
anomalies = data[anomalies_indices]

print(f"\n检测到的异常点数量: {len(anomalies_indices)}")
print("异常点坐标:\n", anomalies)

# 6. 可视化结果
plt.figure(figsize=(10, 7))
plt.scatter(normal_data[:, 0], normal_data[:, 1], c='blue', label='正常数据', alpha=0.7)
plt.scatter(outlier_data[:, 0], outlier_data[:, 1], c='green', marker='x', s=100, label='真实异常点') # 真实异常点
plt.scatter(anomalies[:, 0], anomalies[:, 1], c='red', marker='o', s=100, edgecolors='k', label='检测到的异常点') # 检测到的异常点

# 绘制马氏距离等高线（可选，但有助于理解）
# def plot_mahalanobis_contours(ax, mu, cov_matrix, n_std=2, color='gray', linestyle='--'):
#     from matplotlib.patches import Ellipse
#     vals, vecs = np.linalg.eigh(cov_matrix)
#     order = vals.argsort()[::-1]
#     vals, vecs = vals[order], vecs[:, order]
#     theta = np.degrees(np.arctan2(*vecs[:, 0][::-1]))
#     width, height = 2 * n_std * np.sqrt(vals)
#     ellip = Ellipse(xy=mu, width=width, height=height, angle=theta,
#                     facecolor='none', edgecolor=color, linestyle=linestyle, label=f'{n_std} Std. Dev. Mahalanobis')
#     ax.add_patch(ellip)
#     return ellip

# plot_mahalanobis_contours(plt.gca(), mu, cov_matrix, n_std=np.sqrt(threshold_chi2), color='purple', linestyle='-')

plt.title('马氏距离异常检测')
plt.xlabel('特征 1')
plt.ylabel('特征 2')
plt.legend()
plt.grid(True)
plt.show()

# 进一步分析：查看所有点的马氏距离分布
plt.figure(figsize=(10, 4))
plt.hist(mahalanobis_distances, bins=30, color='skyblue', edgecolor='black')
plt.axvline(x=threshold_chi2, color='red', linestyle='--', label=f'阈值: {threshold_chi2:.2f}')
plt.title('马氏距离分布')
plt.xlabel('马氏距离')
plt.ylabel('频率')
plt.legend()
plt.grid(True)
plt.show()

这个流程中，我们首先模拟了数据，然后用正常数据计算均值和协方差矩阵，这是马氏距离的基础。接着，对所有数据点计算其马氏距离，并利用卡方分布的性质来设定一个统计学意义上的阈值，从而识别出那些“远离”正常数据分布中心的点。

马氏距离为何在多变量异常检测中表现突出？

在我看来，马氏距离之所以在多变量异常检测中有着不可替代的地位，核心在于它对数据内部结构的深刻洞察力。我们知道，现实世界的数据变量往往不是孤立存在的，它们之间可能存在着复杂的线性或非线性关系。单纯使用欧氏距离（Euclidean Distance）来衡量点与点之间的远近，就像是戴着有色眼镜看世界——它只关注绝对的坐标差异，却完全忽略了变量间的相关性以及它们各自的尺度。

举个例子，假设我们有身高和体重两个特征。如果一个人的身高比平均身高高出10厘米，体重比平均体重轻了5公斤，欧氏距离可能会认为他很“异常”。但如果身高和体重在人群中通常是正相关的，那么一个身高很高但体重却很轻的人，在马氏距离看来，他的“异常”程度会更高，因为它考虑到了身高体重在正常人群中的联合分布模式。马氏距离通过引入协方差矩阵的逆，有效地将数据“去相关”并“标准化”，使得在新的空间中，数据点的距离能够真正反映其在原数据分布中的稀有程度。

这就像是，欧氏距离把数据空间想象成一个规规矩矩的正方形网格，而马氏距离则能根据数据的实际分布形态（比如椭圆形），调整它的“尺子”，让测量结果更加精准和有意义。它不仅能捕捉到单个变量的异常，更能捕捉到多个变量组合起来的“不寻常”模式，这对于真正的多变量异常检测来说至关重要。

在Python中实现马氏距离异常检测时有哪些常见挑战与优化策略？

在Python中实现马氏距离进行异常检测，虽然原理直观，但在实际操作中确实会遇到一些“坑”。我的经验是，以下几个挑战最为常见，并且都有对应的优化策略：

ChatX翻译

最实用、可靠的社交类实时翻译工具。支持全球主流的20+款社交软件的聊天应用，全球200+语言随意切换。让您彻底告别复制粘贴的翻译模式，与世界各地高效连接！

下载

1. 协方差矩阵的奇异性或病态性（Singular/Ill-conditioned Covariance Matrix）： 这是最常见的问题之一。当你的特征数量远大于样本数量时，或者当特征之间存在高度线性相关（比如一个特征是另一个特征的精确倍数）时，计算出的协方差矩阵可能是奇异的（不可逆）。即使不是完全奇异，也可能是病态的，导致求逆结果不稳定。

挑战： np.linalg.inv 会报错或给出不稳定的结果。
优化策略：
- 正则化： 最直接的方法是给协方差矩阵的对角线加上一个很小的正数（L2正则化），使其变为正定矩阵。例如 cov_matrix + np.eye(cov_matrix.shape[0]) * epsilon，其中 epsilon 是一个很小的数（如1e-6）。这在统计学上被称为岭回归的协方差估计版本。
- 降维： 在计算马氏距离之前，先进行主成分分析（PCA）或其他降维技术。PCA可以消除特征间的线性相关性，并且只保留最重要的独立成分，这不仅解决了奇异性问题，还能降低计算复杂度。
- 特征选择： 仔细检查你的特征，移除那些高度冗余或与其它特征完全相关的特征。

2. 计算成本： 当数据集的维度（特征数量）很高时，计算协方差矩阵的逆操作会变得非常耗时，尤其是对于非常大的数据集。

挑战： np.linalg.inv 的时间复杂度是O(p^3)，其中p是特征数量。
优化策略：
- 使用scipy.linalg.solve： 在计算 D_M^2 = (x - \mu)^T \Sigma^{-1} (x - \mu) 时，实际上我们并不需要显式计算 \Sigma^{-1}。我们可以通过求解线性方程组 \Sigma y = (x - \mu) 得到 y = \Sigma^{-1} (x - \mu)，然后计算 (x - \mu)^T y。scipy.linalg.solve 函数可以高效地完成这个任务，避免了直接求逆。
- 批量处理： 如果内存允许，可以一次性计算多个点的马氏距离，利用NumPy的广播特性或向量化操作。
- 采样： 如果数据量实在太大，可以考虑对数据进行采样，或者使用更轻量级的异常检测算法。

3. 阈值选择： 如何确定一个合适的异常阈值是一个经验与理论结合的问题。虽然马氏距离的平方在理论上服从卡方分布，但在实际应用中，数据往往不完全符合多元正态分布，或者训练数据中本身就混杂了少量异常点。

挑战： 理论阈值可能过于严格或过于宽松。
优化策略：
- 统计学方法： 如果数据确实近似服从多元正态分布，使用卡方分布的百分位数（如95%或99%分位数）是一个很好的起点。
- 经验法则： 观察马氏距离的直方图或箱线图，手动选择一个“拐点”作为阈值。
- 交叉验证/验证集： 如果有标注的异常点，可以通过在验证集上调整阈值，优化召回率和精确率。
- 可视化： 将马氏距离排序后绘制曲线图（类似QQ图），异常点通常会出现在曲线的尾部，偏离正常趋势。

4. 训练数据污染： 如果用于计算均值和协方差矩阵的“正常”数据中混入了大量的异常点，那么计算出的均值和协方差矩阵就会被“污染”，导致模型对异常的识别能力下降。

挑战： 异常点会扭曲正常数据的分布特征。
优化策略：
- 鲁棒性估计： 使用鲁棒性更强的均值和协方差估计方法，例如最小协方差行列式（Minimum Covariance Determinant, MCD）估计器。sklearn.covariance.MinCovDet 提供了这样的功能，它能自动识别并排除一部分异常点来计算更“干净”的均值和协方差。
- 迭代清理： 可以先用一个初始模型检测出明显的异常点，然后将这些点从训练集中移除，再重新计算均值和协方差矩阵，如此迭代几次。

这些挑战和策略提醒我们，即使是像马氏距离这样“经典”的方法，在实际部署时也需要细致的考量和灵活的调整。

除了马氏距离，Python中还有哪些多变量异常检测的替代方法？

当然，马氏距离虽然强大，但它并不是多变量异常检测的唯一选择，也不是万能的。在Python的生态系统里，我们有许多其他同样优秀甚至在特定场景下表现更好的方法。选择哪种方法，往往取决于你的数据特性、异常的定义以及你对模型解释性的需求。

Isolation Forest (孤立森林)
- 特点： 这是一种基于树的非参数方法，非常适合处理高维数据。它的核心思想是异常点是“少数派”，因此在随机划分数据时，异常点往往只需要很少的几次分割就能被孤立出来。
- 优势： 计算效率高，对高维数据和大规模数据集表现良好，不需要关于数据分布的假设。
- 适用场景： 当你的数据维度很高，或者你对数据分布一无所知时，Isolation Forest 是一个非常好的起点。sklearn.ensemble.IsolationForest 提供了实现。
One-Class SVM (单类支持向量机)
- 特点： OCSVM 是一种无监督学习算法，它尝试学习一个将“正常”数据包围起来的超平面（或超球体），任何落在超平面之外的点都被认为是异常。
- 优势： 能够处理非线性边界，通过核函数可以适应各种复杂的数据分布。
- 适用场景： 当你只有正常数据而没有异常数据样本时，或者异常数据非常稀少时。sklearn.svm.OneClassSVM 提供了实现。
Local Outlier Factor (LOF，局部异常因子)
- 特点： LOF 是一种基于密度的异常检测方法。它通过比较一个数据点与其邻居的密度来判断其异常程度。如果一个点的局部密度远低于其邻居的局部密度，那么它就可能是异常点。
- 优势： 能够发现局部异常（即在某些区域是异常，但在全局看来可能不那么异常的点），对数据分布没有严格假设。
- 适用场景： 当异常点的定义是“相对于其局部环境而言不寻常”时。sklearn.neighbors.LocalOutlierFactor 提供了实现。
Autoencoders (自编码器)
- 特点： 这是一种神经网络模型，旨在学习输入数据的压缩表示。自编码器被训练来重建输入数据。对于正常数据，它能够很好地进行重建；而对于异常数据，由于其偏离了训练数据的模式，自编码器的重建误差会显著增大。
- 优势： 能够捕捉复杂的非线性关系和高维数据中的异常，特别适用于序列数据或图像数据。
- 适用场景： 当数据维度非常高，且存在复杂的非线性模式，或者你希望利用深度学习的能力时。你需要使用像 TensorFlow 或 PyTorch 这样的深度学习框架来实现。
DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
- 特点： 虽然主要用于聚类，但DBSCAN也能很好地识别异常点（噪声点）。它将数据点分为核心点、边界点和噪声点。那些不属于任何簇的点就被视为异常。
- 优势： 不需要预先指定簇的数量，能够发现任意形状的簇，并有效识别噪声。
- 适用场景： 当你认为异常点是那些不属于任何密集区域的点时。sklearn.cluster.DBSCAN 提供了实现。

每种方法都有其独特的哲学和适用范围。马氏距离依赖于数据的协方差结构，对多元正态性有一定假设；而像 Isolation Forest 或 LOF 则更侧重于局部密度或可分离性。在实际项目中，我通常会尝试多种方法，并结合业务知识和可视化来选择最适合当前问题的方案。有时候，甚至会组合多种方法的优势，形成一个更鲁棒的异常检测系统。

如何在 Python 中递归展平嵌套的字典列表（含层级地址路径）

如何在 Python 中递归展平嵌套的字典列表

如何在 Python 中递归扁平化嵌套的对象列表

如何在 Python 中递归展平嵌套的字典列表（树形结构）

Python函数式编程教程_lambda与高阶函数应用解析