隐马尔可夫模型(hmm)在python中实现异常检测的核心在于通过建模正常行为识别偏离模式的异常数据。1. 首先准备序列数据,将观测数据组织为时间步或事件序列;2. 选择合适的hmm模型,如discretehmm用于离散数据,gaussianhmm或gmmhmm用于连续数值;3. 使用正常数据训练模型,通过em算法学习初始状态概率、转移概率和观测分布参数;4. 对新序列计算对数似然,低于阈值则标记为异常。hmm的优势在于捕捉时间依赖性和潜在状态变化,适用于无监督场景。选择模型时,离散型适用于分类事件,连续型适用于数值数据。设定阈值常用统计方法,如均值减k倍标准差,但面临敏感性、数据漂移、异常稀疏等挑战,需持续优化。

隐马尔可夫模型(HMM)在Python中实现异常检测,核心在于它能学习并建模序列数据的正常行为模式。一旦模型掌握了“正常”的规律,任何显著偏离这种规律的序列数据,其在模型下的概率就会异常低,从而被识别为异常。在Python里,
hmmlearn

要实现基于HMM的异常检测,我们通常会遵循以下步骤:
首先,准备你的序列数据。HMM处理的是序列,所以你需要将你的观测数据组织成一系列的时间步或事件序列。例如,如果你的数据是传感器读数,你可以将连续的读数片段视为一个序列。
立即学习“Python免费学习笔记(深入)”;

接着,选择合适的HMM模型。这取决于你的观测数据类型:
DiscreteHMM
GaussianHMM
GMMHMM
然后,使用“正常”数据来训练你的HMM模型。这是关键一步,因为模型需要学习什么是“正常”。训练过程会通过期望最大化(EM)算法来估算模型的参数:初始状态概率、状态转移概率矩阵以及观测概率分布(对于高斯HMM,就是每个状态下观测的均值和协方差)。

训练完成后,就可以进行异常检测了。对于一个新的、未知的序列,你可以计算它在已训练好的HMM模型下的对数似然(log-likelihood)。
hmmlearn
score_samples
import numpy as np
from hmmlearn import hmm
import matplotlib.pyplot as plt
from scipy.stats import norm
# 1. 生成一些“正常”的序列数据
# 假设我们有两个隐藏状态:状态0(低值波动)和状态1(高值波动)
# 每个状态下的观测数据服从不同的高斯分布
np.random.seed(42)
# 状态转移概率矩阵
# 从状态0到状态0的概率是0.9,到状态1是0.1
# 从状态1到状态1的概率是0.9,到状态0是0.1
transmat = np.array([[0.9, 0.1],
[0.1, 0.9]])
# 观测均值和协方差(对于GaussianHMM)
# 状态0的观测均值是0,协方差是1
# 状态1的观测均值是5,协方差是1
means = np.array([[0.], [5.]])
covars = np.array([[1.], [1.]])
# 初始状态概率
startprob = np.array([0.5, 0.5])
# 创建一个高斯HMM模型
model = hmm.GaussianHMM(n_components=2, covariance_type="full", n_iter=100)
model.startprob_ = startprob
model.transmat_ = transmat
model.means_ = means
model.covars_ = covars
# 生成一些正常序列数据
# 模拟100个序列,每个序列长度为50
normal_data = []
lengths = []
for _ in range(100):
X, Z = model.sample(n_samples=50)
normal_data.append(X)
lengths.append(50)
normal_data_flat = np.concatenate(normal_data)
# 2. 训练HMM模型(使用真实数据时,通常只用正常数据训练)
# 这里我们假设我们不知道真实的参数,需要从数据中学习
# 重新初始化一个模型进行训练
trained_model = hmm.GaussianHMM(n_components=2, covariance_type="full", n_iter=100, random_state=0)
trained_model.fit(normal_data_flat, lengths)
print("训练后的模型参数:")
print("初始状态概率:", trained_model.startprob_)
print("状态转移概率:", trained_model.transmat_)
print("观测均值:", trained_model.means_)
print("观测协方差:", trained_model.covars_)
# 3. 异常检测
# 计算正常数据在训练模型下的对数似然
normal_scores = [trained_model.score(seq) for seq in normal_data]
# 生成一些“异常”的序列数据
# 异常数据可能表现为:
# 1. 持续处于某个不常出现的状态
# 2. 观测值与正常状态的分布显著不符
# 3. 状态转换模式异常
abnormal_data = []
# 异常类型1:观测值异常高
abnormal_data.append(np.random.normal(loc=10, scale=1, size=(50, 1)))
# 异常类型2:观测值异常低
abnormal_data.append(np.random.normal(loc=-5, scale=1, size=(50, 1)))
# 异常类型3:混合了正常状态,但有突然的偏离
abnormal_seq_mixed = np.concatenate([np.random.normal(loc=0, scale=1, size=(25, 1)),
np.random.normal(loc=10, scale=1, size=(25, 1))])
abnormal_data.append(abnormal_seq_mixed)
abnormal_scores = [trained_model.score(seq) for seq in abnormal_data]
print("\n正常序列的对数似然:", np.mean(normal_scores), "±", np.std(normal_scores))
print("异常序列的对数似然:", abnormal_scores)
# 设定阈值(例如,低于正常均值减去3倍标准差)
threshold = np.mean(normal_scores) - 3 * np.std(normal_scores)
print(f"\n设定的异常检测阈值: {threshold:.2f}")
# 可视化分数分布
plt.figure(figsize=(10, 6))
plt.hist(normal_scores, bins=20, alpha=0.7, label='正常序列分数', color='skyblue')
for i, score in enumerate(abnormal_scores):
plt.axvline(x=score, color='red', linestyle='--', label=f'异常序列{i+1}分数' if i == 0 else "")
plt.axvline(x=threshold, color='green', linestyle='-', linewidth=2, label='异常阈值')
plt.title('HMM对数似然分数分布')
plt.xlabel('对数似然分数')
plt.ylabel('序列数量')
plt.legend()
plt.grid(axis='y', alpha=0.75)
plt.show()
# 判断新序列是否异常
new_unseen_sequence = np.random.normal(loc=8, scale=1, size=(50, 1)) # 一个可能是异常的序列
new_score = trained_model.score(new_unseen_sequence)
print(f"\n新序列的分数: {new_score:.2f}")
if new_score < threshold:
print("该新序列被检测为异常。")
else:
print("该新序列被检测为正常。")我个人觉得,HMM最打动我的地方,就是它对“过程”的理解。很多异常并非简单的某个点或某个特征值超标,而是在时间序列中,某个事件的发生顺序、状态的持续时间,或者状态之间的转换模式出现了不寻常的变化。HMM的优势恰恰在于它能捕捉这种时间依赖性和序列模式。
它不像一些传统的统计方法,仅仅关注单个数据点的离群值。HMM能够建模潜在的、不可见的系统状态,以及这些状态是如何随时间演变的。比如,一个机器的运行状态可能在“正常负载”、“轻微磨损”和“故障前兆”之间切换,这些状态我们肉眼看不到,但它们会影响观测到的传感器数据。HMM通过学习这些状态的转移概率和每个状态下观测数据的概率分布,就能识别出那些不符合“正常”状态序列或观测模式的异常。这种能力对于需要理解系统动态行为的异常检测场景来说,简直是量身定制。
另外,它通常可以进行无监督学习,这意味着你不需要大量的异常样本来训练模型——在很多实际场景中,异常样本是稀缺且难以获取的。你只需要大量的正常数据来构建正常行为的基线模型。
这其实是个很实际的问题,我刚开始接触HMM的时候也纠结过。简单来说,选择离散型HMM还是连续型HMM(比如高斯HMM),主要取决于你的观测数据的本质。
如果你处理的数据是离散的、分类的,比如用户行为序列中的“点击”、“浏览”、“购买”事件,或者网络流量中的“HTTP请求”、“DNS查询”等类型,那么
DiscreteHMM
而如果你的观测数据是连续的数值,比如传感器读数(温度、压力)、股票价格、音频信号的特征值等,那么
GaussianHMM
GMMHMM
GaussianHMM
GMMHMM
我的经验是,对于大多数物联网、工业监控或金融数据,它们通常是连续的,所以
GaussianHMM
GMMHMM
设定阈值,这活儿听起来简单,做起来可真是一门艺术,也是异常检测中最让人头疼的部分之一。毕竟,一个好的阈值决定了你的模型是“宁可错杀一千,不可放过一个”还是“佛系漏报”。
最常见的方法是基于统计学。在训练好HMM模型后,你可以用大量的正常序列去计算它们的对数似然分数,这些分数通常会形成一个分布。你可以计算这个分布的均值和标准差,然后将阈值设定为“均值减去K倍标准差”(例如,K=2或3)。或者,你可以使用百分位数法,比如将低于第5个百分位数的序列标记为异常。
另一种方法是经验法或业务驱动法。如果你的领域专家对什么程度的偏离算作异常有直观的判断,你可以结合他们的经验来调整阈值。这通常需要一些迭代和试错。
如果手头有少量带有标签的异常数据,那情况会好很多。你可以用这些数据来做验证,通过调整阈值,找到一个在召回率和精确率之间取得平衡的最佳点,或者优化F1分数等指标。
在实践中,设定阈值会遇到不少挑战:
所以,在实际应用中,阈值的设定往往不是一次性的,它可能需要持续的监控、调整和优化,甚至结合其他异常检测方法进行多层次的判断。
以上就是Python中如何实现基于HMM的异常检测?隐马尔可夫模型的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号