Python如何实现基于因果发现的时序异常定位？

爱谁谁

发布时间：2025-08-03 15:02:01

851人浏览过

来源于php中文网

原创

python中实现基于因果发现的时序异常定位，需依次完成以下步骤：1.数据准备和预处理，使用pandas进行数据加载与缺失值填充，scipy.signal进行平滑处理；2.因果关系发现，利用格兰杰因果检验或pc算法、lingam等方法构建因果图；3.构建因果模型，如贝叶斯网络或结构方程模型，用于预测正常情况下的变量变化；4.异常检测，通过比较实际值与模型预测值的偏差，识别异常时间点；5.异常定位，依据因果图确定导致异常的根本原因。选择合适的因果发现算法应考虑数据特性与计算复杂度，非线性关系可通过核方法或神经网络处理，评估异常定位准确性可使用精确率、召回率、f1-score或专家判断，高维数据则先使用pca或自编码器降维后再分析。

Python如何实现基于因果发现的时序异常定位？

Python中实现基于因果发现的时序异常定位，核心在于利用时序数据之间的因果关系来区分正常波动和异常事件。简单来说，就是找到时间序列中导致异常的原因，而不是仅仅标记出异常点。

解决方案

数据准备和预处理： 收集时序数据，进行清洗、缺失值处理、平滑等预处理操作。例如，可以使用

pandas

库加载数据，

scipy.signal

进行平滑处理。

立即学习“Python免费学习笔记（深入）”；

import pandas as pd
import numpy as np
from scipy.signal import savgol_filter

# 加载数据
data = pd.read_csv('time_series_data.csv', index_col='timestamp', parse_dates=True)

# 缺失值处理 (简单填充)
data = data.fillna(method='ffill')

# 平滑处理 (Savitzky-Golay filter)
window_length = 51 # 窗口大小，必须是奇数
polyorder = 3 # 多项式阶数
for col in data.columns:
    if len(data[col]) > window_length: #确保数据长度大于窗口长度
        data[col] = savgol_filter(data[col], window_length, polyorder)
    else:
        print(f"Warning: Data length for column '{col}' is too short for the Savitzky-Golay filter. Skipping.")

因果关系发现： 使用因果发现算法学习时序数据之间的因果图。常用的算法包括格兰杰因果检验（Granger Causality Test）、PC算法、LiNGAM等。

statsmodels

库提供了格兰杰因果检验的实现，而

causalml

、

dowhy

等库则提供了更复杂的因果推断工具。这里我们使用格兰杰因果检验作为示例：

from statsmodels.tsa.stattools import grangercausalitytests

def grangers_causation_matrix(data, variables, maxlag=3, test='ssr_chi2test', verbose=False):
    """检查时间序列数据集的格兰杰因果关系。
    数据框的行是观察值，列是变量。
    参数:
    ----------
    data : pandas.DataFrame，包含时间序列数据的 DataFrame。
    variables : list，要检查因果关系的变量列表。
    maxlag : int，最大滞后项数。
    verbose : bool，是否打印详细信息。
    Returns:
    -------
    dataframe : pandas.DataFrame，格兰杰因果关系测试的 P 值矩阵。
    """
    df = pd.DataFrame(np.zeros((len(variables), len(variables))), columns=variables, index=variables)
    for c in df.columns:
        for r in df.index:
            test_result = grangercausalitytests(data[[r, c]], maxlag=maxlag, verbose=False)
            p_values = [round(test_result[i+1][0][test][1],4) for i in range(maxlag)]
            min_p_value = min(p_values)
            df.loc[r, c] = min_p_value
    df.columns = [var + '_x' for var in variables]
    df.index = [var + '_y' for var in variables]
    return df

# 示例：假设data中有'A'和'B'两列时序数据
variables = data.columns.tolist()
granger_matrix = grangers_causation_matrix(data, variables, maxlag=3, verbose=False)
print(granger_matrix)

注意： 格兰杰因果关系并不等同于真正的因果关系，它仅仅表示一个时间序列对另一个时间序列的预测能力。

构建因果模型： 根据因果关系，构建一个因果模型。这个模型可以是贝叶斯网络、结构方程模型等。模型的目的是预测在正常情况下，各个时间序列应该如何变化。

# 使用pgmpy库构建贝叶斯网络 (示例，需要根据实际因果关系进行调整)
from pgmpy.models import BayesianModel
from pgmpy.estimators import MaximumLikelihoodEstimator, BayesianEstimator

# 假设granger_matrix已经计算好，并且我们知道A->B，B->C (需要根据实际情况调整)
edges = [('A', 'B'), ('B', 'C')]
model = BayesianModel(edges)

# 使用数据学习参数
model.fit(data, estimator=MaximumLikelihoodEstimator)

# 或者使用贝叶斯估计器
# model.fit(data, estimator=BayesianEstimator, prior_type="BDeu") # 需要设置适当的先验

# 现在model可以用来预测，例如给定A的值，预测B和C的值

异常检测： 使用构建好的因果模型，预测每个时间序列的期望值。如果实际值与期望值之间的偏差超过某个阈值，则认为该时间点发生了异常。可以使用统计方法（如Z-score、箱线图）或机器学习方法（如Isolation Forest、One-Class SVM）来确定阈值。

# 示例：使用Z-score检测异常
from scipy import stats

def detect_anomalies(data, model, threshold=3):
    """
    使用Z-score检测异常。
    """
    anomalies = {}
    for node in model.nodes():
        # 预测该节点的值 (简化示例，实际需要根据模型结构进行更复杂的预测)
        # 这里假设我们可以直接从模型中获取条件概率分布
        predicted_values = []
        for i in range(len(data)):
            evidence = {} # 证据，即父节点的值
            for parent in model.predecessors(node):
                evidence[parent] = data[parent].iloc[i]

            try:
                # 简化示例：假设模型可以直接返回条件期望
                predicted_value = model.predict([evidence])[node].iloc[0]
                predicted_values.append(predicted_value)
            except Exception as e:
                # 处理缺失数据或模型无法预测的情况
                predicted_values.append(np.nan) # 或者使用其他方法进行插补
                print(f"Warning: Could not predict value for node '{node}' at index {i} due to {e}. Using NaN instead.")

        predicted_values = pd.Series(predicted_values, index=data.index) # 转换为Series，方便后续操作
        residuals = data[node] - predicted_values
        residuals = residuals.dropna() # 移除NaN值，避免影响Z-score计算
        z_scores = np.abs(stats.zscore(residuals))

        anomalous_indices = residuals.index[z_scores > threshold]
        anomalies[node] = anomalous_indices.tolist()

    return anomalies

anomalies = detect_anomalies(data, model, threshold=3)
print(anomalies)

异常定位： 根据因果图，找到导致异常的根本原因。例如，如果时间序列A的异常导致时间序列B的异常，那么A就是B的根本原因。

腾讯AI 开放平台

腾讯AI开放平台

下载

# 异常定位 (简化示例)
def locate_root_cause(anomalies, model):
    """
    根据因果图，找到导致异常的根本原因。
    """
    root_causes = {}
    for node, anomalous_indices in anomalies.items():
        root_causes[node] = []
        for index in anomalous_indices:
            # 找到所有导致该节点异常的父节点
            parents = list(model.predecessors(node))
            root_causes[node].extend(parents) # 简化示例：直接将父节点作为根本原因
    return root_causes

root_causes = locate_root_cause(anomalies, model)
print(root_causes)

如何选择合适的因果发现算法？

选择合适的因果发现算法取决于数据的特性和问题的具体情况。例如，格兰杰因果检验适用于线性时间序列，而PC算法和LiNGAM则适用于更复杂的非线性关系。还需要考虑算法的计算复杂度和对噪声的鲁棒性。在实际应用中，通常需要尝试多种算法，并根据实验结果选择最佳的算法。

因果模型如何处理非线性关系？

处理非线性关系可以使用非线性因果发现算法，例如基于核方法的因果发现算法、基于神经网络的因果发现算法等。此外，还可以使用特征工程的方法，将非线性关系转换为线性关系，然后再使用线性因果发现算法。

如何评估异常定位的准确性？

评估异常定位的准确性需要使用标注数据。可以使用以下指标：