0

0

如何用Python实现基于SVM的异常检测?单类分类器

看不見的法師

看不見的法師

发布时间:2025-08-01 11:49:01

|

736人浏览过

|

来源于php中文网

原创

one-class svm通过仅学习正常数据的边界来识别异常。步骤包括:1. 生成正常与异常模拟数据并标准化;2. 使用oneclasssvm模型训练,设置nu和kernel参数;3. 对数据进行预测并计算决策分数;4. 可视化结果并评估模型性能。适用场景如质量控制、网络入侵检测等,调参时nu控制异常比例,gamma影响边界复杂度,评估依赖专家判断或少量标签。

如何用Python实现基于SVM的异常检测?单类分类器

用Python实现基于One-Class SVM的异常检测,核心在于利用

scikit-learn
库中的
OneClassSVM
模型。它不像传统分类器那样需要正负样本,而是通过学习“正常”数据的分布边界,将偏离这个边界的数据点识别为异常。这在只有正常数据可用,或异常样本极其稀少且难以获取时,显得尤为实用。

如何用Python实现基于SVM的异常检测?单类分类器

解决方案

import numpy as np
import matplotlib.pyplot as plt
from sklearn.svm import OneClassSVM
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs

# 1. 生成模拟数据:正常数据和少量异常数据
# 模拟正常数据(一个紧密的集群)
X_normal, _ = make_blobs(n_samples=300, centers=[[0, 0]], cluster_std=0.5, random_state=42)

# 模拟异常数据(远离正常集群的点)
X_outliers, _ = make_blobs(n_samples=30, centers=[[3, 3], [-2, -2]], cluster_std=0.8, random_state=42)

# 将正常数据和异常数据合并,但训练时只用“正常”数据
X_combined = np.vstack([X_normal, X_outliers])

# 为了One-Class SVM更好地工作,通常需要对数据进行标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_combined)

# 2. 初始化并训练One-Class SVM模型
# nu: 控制异常值比例的参数,这里假设我们期望有0.05(5%)的异常值。
# kernel: 'rbf'是径向基函数核,适合处理非线性边界。
# gamma: rbf核的参数,控制单个训练样本的影响范围。'auto'会使用1 / n_features。
model = OneClassSVM(nu=0.05, kernel="rbf", gamma='auto')

# 注意:One-Class SVM通常只在“正常”数据上进行训练
# 这里我们用X_normal_scaled来训练,模拟只有正常数据可用的情况
X_normal_scaled = scaler.fit_transform(X_normal)
model.fit(X_normal_scaled)

# 3. 对所有数据进行预测
# decision_function返回每个样本到超平面的有符号距离
# 距离越小(负值越大),越可能是异常
y_pred = model.predict(X_scaled)
scores = model.decision_function(X_scaled)

# 4. 结果可视化
# 识别出被模型标记为异常的点(y_pred = -1)
# 正常点(y_pred = 1)
anomalies = X_combined[y_pred == -1]
normals = X_combined[y_pred == 1]

plt.figure(figsize=(10, 7))
plt.scatter(normals[:, 0], normals[:, 1], c='blue', marker='o', s=50, label='正常数据 (模型判断)')
plt.scatter(anomalies[:, 0], anomalies[:, 1], c='red', marker='x', s=100, label='异常数据 (模型判断)')
plt.title('One-Class SVM 异常检测结果')
plt.xlabel('特征1')
plt.ylabel('特征2')
plt.legend()
plt.grid(True)
plt.show()

print(f"模型识别出的异常点数量: {np.sum(y_pred == -1)}")
print(f"模型识别出的正常点数量: {np.sum(y_pred == 1)}")

理解One-Class SVM的工作原理及其适用场景

One-Class SVM,顾名思义,它只关注一类数据——我们认为是“正常”的数据。它的核心思想是在一个高维特征空间中,找到一个最优的超平面,将所有正常数据点尽可能地包含在一个区域内,同时将这个区域与原点(或数据转换后的原点)分开。简单来说,它学习的是正常数据的“轮廓”或“边界”,任何落在边界之外的点,或者说,在边界内部但离边界很近的点,都有可能被标记为异常。

这和我们熟悉的二分类SVM有本质区别。二分类SVM需要正负两类样本来划定一个决策边界,将它们分开。而One-Class SVM通常在只有“正常”样本的情况下训练,它不需要知道异常样本长什么样。这使得它在很多实际场景中非常有用,比如:

立即学习Python免费学习笔记(深入)”;

如何用Python实现基于SVM的异常检测?单类分类器
  • 工业生产中的质量控制: 生产线上的产品绝大多数都是合格的,只有极少数是不合格品。我们有大量的正常产品数据,但很少甚至没有不合格品的样本。
  • 网络入侵检测: 大部分网络流量是正常的,异常攻击流量相对稀少。我们很难收集到所有类型的攻击样本。
  • 金融欺诈检测: 绝大多数交易是合法的,欺诈交易是少数。
  • 系统日志异常监控: 正常运行的系统日志模式相对稳定,偏离这些模式的日志可能预示着问题。

它的优势在于能够处理高维数据,并且通过核函数(如RBF)可以捕捉非线性的复杂边界。但它也有其局限性,比如对参数

nu
gamma
的敏感性,以及在异常模式与正常模式界限模糊时可能表现不佳。毕竟,它没有见过“坏人”长什么样,只能通过“好人”的共同特征来推断。

One-Class SVM在实际应用中的参数选择与调优技巧

One-Class SVM的性能很大程度上取决于其核心参数的设置,尤其是

nu
gamma
(对于RBF核)。这就像是给一个不识字的人画一张地图,你得告诉他“正常”区域大概有多大,以及边界应该画得有多精细。

Narration Box
Narration Box

Narration Box是一种语音生成服务,用户可以创建画外音、旁白、有声读物、音频页面、播客等

下载
如何用Python实现基于SVM的异常检测?单类分类器

nu
参数: 这个参数是One-Class SVM最关键的。它有两个含义:

  1. 它是训练错误(即模型将训练数据中的正常点错误地判断为异常)的上限比例。
  2. 它也是支持向量(即决定决策边界的那些点)的下限比例。
    nu
    的取值范围是(0, 1]。
  • 如何选择? 这是一个经验值,通常需要根据你对数据中异常值比例的先验知识来设定。比如,如果你认为数据集中大约有5%的异常值,那么可以尝试将
    nu
    设置为0.05。如果设置得太小,模型可能会过于宽松,导致漏报(假阴性);如果设置得太大,模型可能会过于严格,导致误报(假阳性)。在没有先验知识的情况下,可以尝试在0.01到0.1之间进行网格搜索或随机搜索。

kernel
参数:

  • rbf
    (Radial Basis Function):
    这是最常用的核函数,因为它能够处理非线性边界,非常灵活。在大多数情况下,如果你不确定数据的分布形态,
    rbf
    是一个很好的起点。
  • linear
    如果你确信正常数据点可以用一个线性边界与异常点分离,或者数据维度非常高且数据量大时,可以考虑使用线性核。
  • poly
    (Polynomial) 和
    sigmoid
    这些核函数在某些特定场景下有用,但通常不如
    rbf
    通用,且参数调优更复杂。

gamma
参数(仅适用于
rbf
,
poly
,
sigmoid
核):
gamma
定义了单个训练样本的影响范围。

  • gamma
    值越大:
    影响范围越小,模型会更关注单个数据点的局部特征,导致决策边界更复杂、更“锯齿状”,容易过拟合。这就像是用非常精细的笔触去描绘边界,可能会把一些噪声也当作特征。
  • gamma
    值越小:
    影响范围越大,模型会考虑更广阔的区域,决策边界更平滑、更通用,可能欠拟合。这就像是用粗犷的笔触去描绘边界,可能会忽略一些细节。
  • 如何选择?
    gamma
    通常与
    nu
    一起进行网格搜索或随机搜索。
    'auto'
    'scale'
    scikit-learn
    提供的默认策略,它们会根据特征数量或数据方差自动计算一个值,这在初步探索时很有用。但为了获得最佳性能,手动调优是必要的。

调优技巧:

  • 数据预处理: 在将数据输入SVM模型之前,强烈建议进行特征缩放(如
    StandardScaler
    ),因为SVM是基于距离的算法,特征的尺度差异会严重影响模型性能。
  • 交叉验证(有限制): 由于One-Class SVM是无监督的,传统的交叉验证(需要标签)难以直接应用。但如果你能获取到少量带标签的异常样本,可以构建一个小的验证集,用F1-score、AUC等指标来评估不同参数组合的性能。
  • 领域知识: 业务专家对异常的定义和容忍度是参数选择的重要依据。例如,如果误报成本很高,你可能需要一个更保守的模型(更小的
    nu
    值,更平滑的边界)。
  • 可视化: 对于低维数据,可视化决策边界和异常点是理解参数影响的直观方式。

如何评估One-Class SVM异常检测模型的性能?

评估One-Class SVM模型性能是一个挑战,因为我们通常没有大量的真实异常标签。这不像传统的监督学习,可以直接计算准确率、精确率、召回率等指标。但我们仍然有几种方法来“摸索”模型的表现:

1. 当存在少量已知异常样本时(最理想的情况): 如果你的数据集中,即使训练时没有用到,但在测试或验证阶段能获取到一部分真实异常样本的标签,那么评估就变得相对容易。

  • 混淆矩阵: 可以计算出真阳性(TP,真正异常且被识别为异常)、假阳性(FP,正常但被误判为异常)、真阴性(TN,真正正常且被识别为正常)、假阴性(FN,真正异常但被漏判为正常)。
  • 精确率 (Precision):
    TP / (TP + FP)
    ,衡量模型识别出的异常点中有多少是真正的异常。
  • 召回率 (Recall):
    TP / (TP + FN)
    ,衡量所有真正的异常点中有多少被模型成功识别。
  • F1-Score: 精确率和召回率的调和平均,综合考虑两者的指标。
  • ROC曲线和AUC值: One-Class SVM会输出一个决策分数(
    decision_function
    ),可以根据这个分数设置不同的阈值来得到不同的TP/FP率,从而绘制ROC曲线。AUC值越高,模型区分正常与异常的能力越强。

2. 当完全没有已知异常样本时(更常见的情况): 这才是One-Class SVM的真正用武之地,但评估也更棘手。

  • 领域专家验证: 这是最实用也是最直接的方法。将模型识别出的“异常”数据点提交给业务或领域专家进行人工审核。如果专家认为这些点确实是异常,那么模型就是有效的。这通常是一个迭代过程,模型会不断调整,直到专家满意为止。
  • 基于阈值的评估: One-Class SVM会给每个样本一个决策分数。分数越低(负值越大),表示该样本越“异常”。你可以根据业务需求,设定一个阈值,例如,将分数最低的N%样本标记为异常。然后,通过观察这些被标记为异常的样本的特征,判断它们是否符合对异常的直观认知。
  • 密度或距离分析: 如果你假设异常点是远离正常数据群的,可以计算被识别为异常的点与正常数据集群中心(或其K近邻)的距离。如果距离普遍较大,说明模型可能捕捉到了异常模式。
  • 可视化检查: 对于低维数据(2D或3D),可以将数据点和模型划分的边界可视化出来。通过观察异常点是否确实远离正常数据群,来直观判断模型的合理性。即使是高维数据,也可以通过PCA、t-SNE等降维技术映射到低维空间进行可视化辅助判断。
  • 稳定性分析: 尝试用不同的
    nu
    gamma
    参数训练模型,观察被识别为异常的点的重叠度。如果不同参数下识别出的核心异常点集合相对稳定,说明这些点很可能是真正的异常。

总的来说,评估One-Class SVM更像是一门艺术,而不是纯粹的科学。它往往需要结合量化指标(如果可能)、领域知识、人工审查以及对数据分布的直观理解。最终目标是构建一个能够有效帮助我们发现潜在问题的工具,而不是一个在所有指标上都“完美”的模型。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

716

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

626

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

739

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

617

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1236

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

575

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

699

2023.08.11

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Django 教程
Django 教程

共28课时 | 2.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号