Python中如何实现基于LSTM的异常检测？循环神经网络

星夢妙者

发布时间：2025-08-05 11:51:01

993人浏览过

来源于php中文网

原创

1.基于lstm的异常检测核心思路是利用模型对时序数据的预测能力，通过训练正常数据学习模式，预测新数据并比较误差判断异常；2.实现步骤包括：数据准备与预处理（标准化、滑动窗口生成序列）、构建lstm模型（lstm层+dense层）、预测与误差计算（mse或mae）、设定异常阈值（如99%分位数）；3.lstm优势在于捕捉时序依赖性、处理非线性模式、适应无监督学习场景；4.数据预处理关键步骤包括清洗、缺失值处理、标准化、序列化及训练测试集划分；5.设定阈值的最佳实践包括基于误差分布统计、可视化辅助、结合业务知识，并通过调整阈值平衡误报与漏报。

Python中如何实现基于LSTM的异常检测？循环神经网络

在Python中实现基于LSTM的异常检测，核心思路是利用LSTM对时序数据的预测能力。我们通常会用正常数据训练LSTM模型，让它学习数据的内在模式和时序依赖性。当有新的数据进来时，模型会尝试预测下一个时间点的值，如果实际值与模型的预测值之间存在显著差异（即预测误差很大），那么这个数据点就很可能是异常。这个过程，在我看来，就像是让一个经验丰富的“老手”去判断新来的事物是否符合常规，不符合的，自然就值得我们多看一眼。

解决方案

要实现基于LSTM的异常检测，我们通常会遵循以下步骤：

数据准备与预处理： 这是任何机器学习任务的基石，对于时序数据尤为关键。你需要将原始数据转换为LSTM模型能够理解的序列格式。这通常涉及数据的标准化（例如，Min-Max Scaling或Z-score标准化），以及通过滑动窗口技术将一维时间序列数据转换成多维的序列样本（例如，

[t-n, ..., t-1]

作为输入，预测

）。

立即学习“Python免费学习笔记（深入）”；

import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from tensorflow.keras.callbacks import EarlyStopping

# 假设 df 是你的时间序列数据，只有一列 'value'
# data = df['value'].values.reshape(-1, 1)

# 示例数据生成
np.random.seed(42)
data = np.sin(np.linspace(0, 100, 1000)) + np.random.randn(1000) * 0.1
# 插入一些异常
data[200:205] += 5
data[700:702] -= 8
data = data.reshape(-1, 1)

scaler = MinMaxScaler(feature_range=(0, 1))
scaled_data = scaler.fit_transform(data)

# 创建序列函数
def create_sequences(data, seq_length):
    xs, ys = [], []
    for i in range(len(data) - seq_length):
        x = data[i:(i + seq_length)]
        y = data[i + seq_length]
        xs.append(x)
        ys.append(y)
    return np.array(xs), np.array(ys)

SEQ_LENGTH = 50 # 序列长度，可以根据数据特性调整
X, y = create_sequences(scaled_data, SEQ_LENGTH)

# 训练集通常只包含“正常”数据
# 这里我们简单地取前80%作为训练集，后20%作为测试集（可能包含异常）
train_size = int(len(X) * 0.8)
X_train, y_train = X[:train_size], y[:train_size]
X_test, y_test = X[train_size:], y[train_size:]

构建LSTM模型： 使用Keras或TensorFlow构建一个序列到序列或序列到单值的LSTM模型。一个常见的结构是LSTM层后面接一个或多个Dense层。模型的输入形状需要匹配你创建的序列数据

(样本数, 序列长度, 特征数)

。

# 构建LSTM模型
model = Sequential([
    LSTM(units=128, activation='relu', input_shape=(X_train.shape[1], X_train.shape[2]), return_sequences=True),
    Dropout(0.2),
    LSTM(units=64, activation='relu', return_sequences=False),
    Dropout(0.2),
    Dense(units=X_train.shape[2]) # 输出维度与输入特征维度一致
])

model.compile(optimizer='adam', loss='mse')

# 设定早停，防止过拟合
early_stopping = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)

# 训练模型，只用正常数据训练
history = model.fit(X_train, y_train,
                    epochs=100,
                    batch_size=32,
                    validation_split=0.1, # 从训练数据中划分一部分用于验证
                    callbacks=[early_stopping],
                    verbose=1)

预测与误差计算： 模型训练完成后，用它来对包括潜在异常的整个数据集（或新的数据流）进行预测。然后，计算实际值与模型预测值之间的误差。常用的误差指标有均方误差（MSE）或平均绝对误差（MAE）。

# 对所有数据进行预测
X_all, y_all = create_sequences(scaled_data, SEQ_LENGTH) # 重新生成所有数据的序列
predictions = model.predict(X_all)

# 计算重构误差 (这里是预测误差)
# 预测值和真实值都是归一化后的
mse_errors = np.mean(np.square(y_all - predictions), axis=1)

# 将误差映射回原始数据点
# 注意：这里的误差对应的是序列的最后一个点，所以需要对齐
# 简化的对齐方式：将误差与原始数据的对应点关联
# 实际应用中，需要更精细地处理序列长度带来的数据点对齐问题
# 这里我们让误差数组的长度与原始数据点数相同，前面填充NaN
full_errors = np.full(len(data), np.nan)
full_errors[SEQ_LENGTH:] = mse_errors

设定异常阈值： 根据训练数据（正常数据）的预测误差分布，设定一个阈值。超过这个阈值的误差，我们就将其标记为异常。这个阈值的选择很关键，它直接影响到误报率和漏报率。

# 仅使用训练数据部分的误差来确定阈值
train_errors = mse_errors[:len(X_train)]

# 设定阈值：例如，取训练误差的99%分位数
threshold = np.percentile(train_errors, 99)
print(f"设定的异常阈值: {threshold:.4f}")

# 识别异常点
anomalies = full_errors > threshold

# 将异常点在原始数据上标记出来
# original_data_with_anomalies = data.copy()
# for i, is_anomaly in enumerate(anomalies):
#     if is_anomaly and not np.isnan(full_errors[i]):
#         print(f"数据点 {i} 可能是异常: 误差 {full_errors[i]:.4f}")

为什么选择LSTM进行异常检测？它比其他方法有何优势？

在我看来，选择LSTM进行异常检测，最核心的原因在于它处理时序数据的“天赋”。我们面对的很多异常，并非仅仅是某个点的值偏离了常规，更多的是它所处的序列上下文出现了不寻常的模式。比如，一个传感器数据突然在几分钟内急剧下降，这在单点检测中可能被忽略（因为绝对值还在正常范围内），但LSTM能捕捉到这种“下降趋势”的异常。

相比其他方法，LSTM的优势体现在几个方面：

捕捉时序依赖性： 这是LSTM的看家本领。它能够学习数据点之间的长期和短期依赖关系，而这是传统统计方法（如ARIMA）或一些非序列机器学习模型（如Isolation Forest、One-Class SVM）难以直接做到的。后者通常需要大量的手动特征工程来提取时序特征，而LSTM能自动完成。
处理非线性模式： 现实世界的数据往往是非线性的，LSTM作为深度学习模型，天生就能学习并建模复杂的非线性关系，这比线性模型更具优势。
无监督或半监督学习： 在异常检测场景下，我们通常只有“正常”数据，异常数据非常稀少或根本没有标签。LSTM可以通过学习正常数据的模式，利用重构误差来识别异常，这完美契合了这种无监督或半监督的特性。Autoencoder也有类似能力，但LSTM在处理时序数据的记忆力上更胜一筹。
适应性强： 只要数据有时间序列的特性，LSTM就能派上用场，无论是网络流量、服务器日志、传感器读数还是金融交易数据。

当然，它也不是万能的，训练时间长、对数据量有要求是其固有挑战。但对于那些需要深入理解时间上下文的异常，LSTM无疑是一个强有力的工具。

如何有效地准备数据以供LSTM模型使用？数据预处理的关键步骤是什么？

数据预处理，说实话，是机器学习项目里最费时间也最容易出错的环节，但它又决定了模型性能的上限。对于LSTM，这尤为如此，因为它的输入格式是序列化的。

易标AI

告别低效手工，迎接AI标书新时代！3分钟智能生成，行业唯一具备查重功能，自动避雷废标项

下载

数据清洗与缺失值处理：
- 异常值初步剔除/平滑： 在训练模型前，如果数据中已经存在明显的、已知类型的异常值，可以考虑先进行初步处理（例如，替换为均值、中位数或使用插值法），以避免它们干扰模型对“正常”模式的学习。但要注意，不要把潜在的真实异常也“洗掉”了。
- 缺失值填充： 时序数据中缺失值很常见。你可以选择前向填充（
```
ffill
```
  ）、后向填充（
```
bfill
```
  ）、线性插值或基于更复杂模型（如KNN、均值/中位数）进行填充。选择哪种方法取决于你的数据特性和缺失模式。我个人倾向于线性插值或更复杂的模型，因为它们更能保持数据的连续性。
数据标准化/归一化：
- 为什么需要： LSTM，以及大多数神经网络，对输入数据的尺度非常敏感。不同特征之间的量纲差异过大，会导致训练过程不稳定，收敛速度慢，甚至无法收敛。
- 方法： 最常用的是
```
MinMaxScaler
```
  （将数据缩放到[0, 1]或[-1, 1]区间）和
```
StandardScaler
```
  （将数据转换为均值为0，标准差为1的正态分布）。对于异常检测，如果你的数据分布偏斜严重，
```
RobustScaler
```
  （使用中位数和四分位数范围）可能更稳健，因为它不易受极端值影响。我通常会先尝试
```
MinMaxScaler
```
  ，因为它能把数据压缩到固定范围，对LSTM的激活函数比较友好。
序列化（滑动窗口）：
- 核心操作： 这是将一维时间序列转换为LSTM所需的多维输入（
```
[samples, timesteps, features]
```
  ）的关键。通过定义一个“滑动窗口”大小（即
```
seq_length
```
  或
```
timesteps
```
  ），我们将连续的数据点组合成一个序列作为模型的输入，并通常将序列的下一个点作为模型的预测目标。
- 举例： 如果
```
seq_length
```
  是10，那么
```
[t-9, t-8, ..., t-1]
```
  会作为输入，模型预测
```
t
```
  。窗口会沿着时间轴滑动，生成下一个序列
```
[t-8, ..., t]
```
  预测
```
t+1
```
  。这个窗口大小的选择很重要，它决定了LSTM能够“记忆”多长时间的历史信息。太短可能无法捕捉长期依赖，太长则会增加计算负担并可能引入不必要的噪声。通常需要根据数据的周期性、事件持续时间等进行实验性选择。
训练集与测试集划分：
- 关键原则： 在异常检测中，训练集应该只包含“正常”数据。如果训练集中混入了大量异常，模型就会把异常当成正常模式来学习，导致检测效果不佳。
- 划分方式： 你可以简单地将数据按时间顺序划分，例如，前80%作为训练集（假设这段时间数据是正常的），后20%作为测试集（其中可能包含异常）。更严谨的做法是，确保训练集的数据是经过人工确认的正常数据。

这些步骤听起来可能有点繁琐，但它们是构建一个鲁棒的LSTM异常检测系统的基石。忽视其中任何一步，都可能导致模型表现不佳，甚至得出误导性的结论。

设定异常阈值的最佳实践有哪些？如何避免误报和漏报？

设定异常阈值，这活儿其实是个艺术活儿，不像模型训练那样有明确的数学公式。它直接关系到你对“异常”的定义有多宽容或多严格，也就是我们常说的误报（False Positives）和漏报（False Negatives）之间的平衡。

基于训练误差分布统计：
- 最常见方法： 在我们只用正常数据训练模型后，我们可以用这些正常数据去预测，并计算它们的预测误差（MAE或MSE）。这些误差应该会比较小。然后，我们可以分析这些误差的分布。
- 百分位数法： 这是我个人最常用的。例如，取训练误差的95%或99%分位数作为阈值。这意味着只有当新数据的预测误差大于95%（或99%）的正常误差时，才会被标记为异常。这个百分比的选择，很大程度上取决于你对误报和漏报的容忍度。
- 均值+标准差法： 计算训练误差的均值和标准差，然后设定阈值为
```
均值 + k * 标准差
```
  。这里的
```
k
```
  是一个乘数，通常取2或3。这假设误差服从正态分布，但实际中可能不总是如此。
- IQR法： 基于四分位数间距（IQR）。阈值可以设为
```
Q3 + 1.5 * IQR
```
  ，这在处理偏态分布的误差时可能更稳健。
可视化辅助决策：
- 将训练误差的分布绘制出来（例如，直方图或核密度估计图）。你可以在图上直观地尝试不同的阈值，看看它们会如何切割误差分布，从而初步判断哪些误差值看起来更像是异常。
- 同时绘制原始数据和标记的异常点。这能让你直观地看到被标记为异常的点在时间序列中的位置，以及它们是否真的看起来“不正常”。这对于初期调试和理解模型行为非常有帮助。
结合业务知识和领域专家意见：
- 这是最关键的一点。一个纯粹统计学上的“异常”可能在业务上毫无意义，或者一个看似不大的波动却预示着严重的系统故障。
- 与领域专家沟通，了解他们对“异常”的定义、历史上的异常事件的特征以及他们对误报和漏报的容忍度。例如，在一个关键的工业控制系统中，漏报一个潜在故障的代价可能远远高于误报几次。
- 阈值可能需要迭代调整。你可能需要先设定一个初步阈值，观察一段时间的检测结果，然后根据实际反馈（有多少是真异常，有多少是误报）进行微调。
避免误报和漏报的策略：
- 平衡Precision和Recall： 如果你有少量带标签的异常数据（即使是历史数据），你可以计算模型的精确率（Precision）和召回率（Recall）。
  - 高阈值 → 高Precision，低Recall： 误报少，但可能漏掉一些真实异常。
  - 低阈值 → 低Precision，高Recall： 能捕捉更多异常，但误报也会增多。
  - F1-Score： 如果你希望同时兼顾两者，F1-Score是一个不错的综合指标。
- 引入多模态检测： 不要只依赖单一指标。除了预测误差，你还可以结合其他特征（如数据的变化率、偏度、峰度等）来共同判断。
- 异常得分而非二元分类： 有时候，输出一个“异常得分”比直接输出“是/否异常”更有用。这样，用户可以根据自己的需求动态调整决策点。
- 动态阈值： 对于数据模式会随时间变化的场景，固定阈值可能不够用。你可以考虑实现动态阈值，例如，每隔一段时间重新计算一次正常误差的分布，并更新阈值。