如何使用Python检测医疗数据的异常值？离群值处理

看不見的法師

发布时间：2025-07-31 12:50:01

946人浏览过

来源于php中文网

原创

检测医疗数据异常值可用python实现，1.箱线图直观展示四分位数与异常值，但对非正态分布易误判；2.z-score基于正态分布计算标准差，简单快速但依赖分布假设；3.iqr通过四分位距设定上下限识别异常值，鲁棒性强但可能漏检；4.isolation forest基于树模型隔离异常值，适合高维数据但需调参；5.lof通过密度比较检测局部异常值，效果好但计算复杂。处理方式包括删除、替换、保留或转换异常值。预处理需处理缺失值、转换数据类型、标准化、去重、清洗错误值。评估指标包括准确率、精确率、召回率、f1-score、auc-roc与pr曲线。结合领域知识可优化检测效果，如特征工程、阈值调整、专家系统、数据分层与多源数据融合。

如何使用Python检测医疗数据的异常值？离群值处理

检测医疗数据异常值，说白了，就是想在海量数据里揪出那些“不合群”的家伙，看看是不是仪器出了问题，还是病人身体真的出现了特殊状况。Python当然可以胜任，而且方法还不少，各有千秋。

解决方案

箱线图（Box Plot）：这是最直观的方法之一。箱线图能清晰地展示数据的四分位数、中位数和异常值。超出“胡须”范围的点，就被认为是异常值。

立即学习“Python免费学习笔记（深入）”；

优点：简单易懂，快速识别异常值。
缺点：对数据分布有一定要求，如果数据不是正态分布，可能误判。
Python代码示例：

import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

# 假设你的医疗数据存储在 DataFrame 'df' 的 'value' 列
# df = pd.read_csv('medical_data.csv')  # 假设数据在CSV文件中

# 示例数据
data = {'patient_id': range(100),
        'value': [i + (random.random() * 10 if random.random() < 0.05 else random.random()) for i in range(100)]} # 模拟一些异常值
df = pd.DataFrame(data)

sns.boxplot(x=df['value'])
plt.show()

Z-Score：假设数据服从正态分布，那么每个数据点都可以计算一个 Z-Score，表示它偏离均值多少个标准差。一般来说，Z-Score 大于 3 或小于 -3 的数据点被认为是异常值。

优点：简单，计算速度快。
缺点：对正态分布要求较高，如果数据不是正态分布，结果可能不准确。
Python代码示例：

import numpy as np
import pandas as pd
from scipy import stats

# 假设你的医疗数据存储在 DataFrame 'df' 的 'value' 列
# df = pd.read_csv('medical_data.csv')

# 示例数据
data = {'patient_id': range(100),
        'value': [i + (random.random() * 10 if random.random() < 0.05 else random.random()) for i in range(100)]} # 模拟一些异常值
df = pd.DataFrame(data)

df['zscore'] = np.abs(stats.zscore(df['value'])) #计算绝对值，因为可能是负异常值
threshold = 3
outliers = df[df['zscore'] > threshold]
print(outliers)

IQR (Interquartile Range)：基于四分位距的方法，先计算 IQR，然后定义一个上限和下限，超出这个范围的数据点就是异常值。上限 = Q3 + 1.5 IQR，下限 = Q1 - 1.5 IQR。这个1.5可以调整。

优点：对数据分布没有严格要求，鲁棒性较好。
缺点：不如 Z-Score 敏感，可能漏掉一些异常值。
Python代码示例：

import pandas as pd

# 假设你的医疗数据存储在 DataFrame 'df' 的 'value' 列
# df = pd.read_csv('medical_data.csv')

# 示例数据
data = {'patient_id': range(100),
        'value': [i + (random.random() * 10 if random.random() < 0.05 else random.random()) for i in range(100)]} # 模拟一些异常值
df = pd.DataFrame(data)

Q1 = df['value'].quantile(0.25)
Q3 = df['value'].quantile(0.75)
IQR = Q3 - Q1
upper_bound = Q3 + 1.5 * IQR
lower_bound = Q1 - 1.5 * IQR
outliers = df[(df['value'] < lower_bound) | (df['value'] > upper_bound)]
print(outliers)

Isolation Forest：一种基于树模型的异常检测算法。它通过随机划分数据，将异常值隔离出来。异常值通常只需要较少的划分次数就能被隔离。

百度文心一格

百度推出的AI绘画作图工具

下载

优点：对高维数据和复杂数据分布效果较好。
缺点：需要调整参数，对参数敏感。
Python代码示例：

import pandas as pd
from sklearn.ensemble import IsolationForest

# 假设你的医疗数据存储在 DataFrame 'df' 的 'value' 列
# df = pd.read_csv('medical_data.csv')

# 示例数据
data = {'patient_id': range(100),
        'value': [i + (random.random() * 10 if random.random() < 0.05 else random.random()) for i in range(100)]} # 模拟一些异常值
df = pd.DataFrame(data)

model = IsolationForest(n_estimators=100, contamination='auto', random_state=42)
model.fit(df[['value']])
df['scores'] = model.decision_function(df[['value']])
df['anomaly'] = model.predict(df[['value']]) # 1 代表正常值， -1 代表异常值
outliers = df[df['anomaly'] == -1]
print(outliers)

Local Outlier Factor (LOF)：LOF 算法通过比较一个数据点与它周围邻居的密度来判断是否为异常值。如果一个数据点的密度远小于它邻居的密度，那么它很可能是一个异常值。

优点：可以检测局部异常值。
缺点：计算复杂度较高，对参数敏感。
Python代码示例：

import pandas as pd
from sklearn.neighbors import LocalOutlierFactor

# 假设你的医疗数据存储在 DataFrame 'df' 的 'value' 列
# df = pd.read_csv('medical_data.csv')

# 示例数据
data = {'patient_id': range(100),
        'value': [i + (random.random() * 10 if random.random() < 0.05 else random.random()) for i in range(100)]} # 模拟一些异常值
df = pd.DataFrame(data)

lof = LocalOutlierFactor(n_neighbors=20, contamination='auto')
df['lof_scores'] = lof.fit_predict(df[['value']]) # 1 代表正常值， -1 代表异常值
outliers = df[df['lof_scores'] == -1]
print(outliers)

离群值处理

检测到异常值之后，怎么处理呢？这得看具体情况。

删除：最简单粗暴的方法，如果异常值数量不多，且确认是错误数据，可以直接删除。但要注意，删除可能会损失信息。
替换：可以用均值、中位数或者其他合理的值来替换异常值。
保留：如果异常值是真实存在的，而且对研究有意义，那就应该保留。例如，在疾病爆发的时候，一些特殊的病例可能就是研究的关键。
转换：有些数据分布可以通过对数变换、指数变换等方法，使得数据更接近正态分布，从而减小异常值的影响。

医疗数据异常值检测前的数据预处理有哪些？

在进行异常值检测之前，数据预处理至关重要。脏数据不仅会影响检测结果的准确性，还可能导致错误的结论。

缺失值处理：医疗数据中常常存在缺失值。可以选择删除包含缺失值的行，或者使用均值、中位数、众数等方法进行填充。更高级的方法包括使用机器学习算法进行预测填充。
数据类型转换：确保数据的类型正确。例如，日期应该转换为日期类型，数值应该转换为数值类型。错误的类型会导致计算错误。
数据标准化/归一化：将数据缩放到一个统一的范围。常用的方法有 Z-Score 标准化和 Min-Max 归一化。这可以消除量纲的影响，使得不同特征之间具有可比性。
重复值处理：删除重复的记录。重复记录可能是数据采集过程中的错误导致的。
数据清洗：处理无效值、错误值。例如，血压值出现负数，或者年龄超过 150 岁等，这些都属于错误值，需要进行修正或删除。
异常值初步处理：在正式进行异常值检测之前，可以先进行一些简单的异常值处理，例如，使用箱线图或 Z-Score 方法初步识别并处理异常值。这可以减少后续复杂算法的计算量。

如何评估不同异常值检测算法在医疗数据上的效果？

选择合适的异常值检测算法至关重要。没有一种算法是万能的，不同的算法适用于不同的数据分布和场景。

混淆矩阵：计算混淆矩阵，包括真正例（TP）、假正例（FP）、真反例（TN）和假反例（FN）。
准确率（Accuracy）：(TP + TN) / (TP + TN + FP + FN)。准确率表示分类正确的样本占总样本的比例。
精确率（Precision）：TP / (TP + FP)。精确率表示被预测为正例的样本中，真正例的比例。
召回率（Recall）：TP / (TP + FN)。召回率表示所有正例中，被正确预测为正例的比例。
F1-Score：2 (Precision Recall) / (Precision + Recall)。 F1-Score 是精确率和召回率的调和平均值，综合考虑了精确率和召回率。
AUC-ROC 曲线：绘制 ROC 曲线，计算 AUC 值。 AUC 值越大，表示算法的性能越好。
PR 曲线：绘制 PR 曲线，评估算法在不同阈值下的性能。
业务指标：结合实际业务场景，评估算法的性能。例如，在疾病预警中，更关注召回率，避免漏掉任何一个潜在的病例。
交叉验证：使用交叉验证方法，评估算法的泛化能力。