Keras二分类模型预测单一类别问题：诊断与优化策略-Python教程-PHP中文网

Keras二分类模型预测单一类别问题：诊断与优化策略

当keras二分类模型始终预测单一类别时，这通常不是模型本身的问题，而是数据与特征工程不足的表现。本文将深入探讨导致模型预测偏斜的潜在原因，并提供一套系统的诊断与优化策略，包括强化探索性数据分析、优先尝试传统机器学习模型、精细化特征工程，以及审慎评估数据与任务的相关性，以帮助开发者构建更鲁棒、更有效的分类器。

1. 问题背景与现象

在构建二分类神经网络时，一个常见但令人困扰的问题是模型训练后总是倾向于预测训练集中实例较多的那个类别，即使数据集在表面上看起来是平衡的。这导致模型的准确率看似很高（因为它正确预测了所有多数类样本），但召回率和F1分数却极低，尤其是在少数类上，最终的混淆矩阵会显示大量的假阴性（FN）或假阳性（FP），而真阳性（TP）或真阴性（TN）为零。

以下代码片段展示了一个典型的Keras二分类模型的构建流程，它在训练后遇到了上述问题：

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, Normalizer
from sklearn.model_selection import train_test_split
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.initializers import he_normal

# 假设 purchase_data 已加载
# data = purchase_data.copy()

# 数据准备示例 (基于原始问题描述)
# 实际应用中，请替换为您的数据加载和预处理逻辑
data = pd.DataFrame({
    'accessed_date': pd.to_datetime(['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05']),
    'sales': [100, 150, 80, 200, 110],
    'feature_A': ['A', 'B', 'A', 'C', 'B'],
    'feature_B': [10, 20, 15, 25, 12]
})
target_sum = 120
data.loc[data['sales'] <= target_sum, 'sales'] = False
data.loc[data['sales'] > target_sum, 'sales'] = True

labelencoder = LabelEncoder()
for col in ['feature_A', 'sales']: # 假设 sales 也是需要编码的布尔类型
    if data[col].dtype == "object" or data[col].dtype == "bool":
        data[col] = labelencoder.fit_transform(data[col])

data['accessed_date'] = data['accessed_date'].apply(lambda x: x.timestamp())

array = data.values 
class_column_name = 'sales' 
class_column_idx = data.columns.get_loc(class_column_name)

X = np.delete(array, class_column_idx, axis=1) 
Y = array[:, class_column_idx] 
Y = Y[:, np.newaxis] 

scaler = Normalizer().fit(X)
X = scaler.transform(X)

# 划分数据集
seed = 1
X_train, X_test, Y_train, Y_test  = train_test_split(X, Y, test_size=0.33, random_state=seed, shuffle=True, stratify=Y)

# 构建并训练神经网络
tf.random.set_seed(seed)

modeldl = Sequential()
modeldl.add(Dense(64, input_dim=X.shape[1], activation='relu', kernel_initializer=he_normal()))
modeldl.add(Dropout(0.2))
modeldl.add(Dense(32, activation='relu', kernel_initializer=he_normal()))
modeldl.add(Dropout(0.2))
modeldl.add(Dense(1, activation='sigmoid', kernel_initializer=he_normal()))

optimizer = tf.keras.optimizers.Adam(learning_rate=1e-04)
modeldl.compile(loss='binary_crossentropy', optimizer=optimizer, metrics=['acc'])

results = modeldl.fit(X_train, Y_train, epochs=80, batch_size=1000, verbose=0) # verbose=0 for brevity

# 训练后的混淆矩阵示例 (反映问题)
# 假设预测结果全部为负类
# from sklearn.metrics import confusion_matrix
# Y_pred = (modeldl.predict(X_test) > 0.5).astype(int)
# print(confusion_matrix(Y_test, Y_pred))
# 实际输出可能类似于：
# [[TN, FP], [FN, TP]]
# 如果全部预测为0：
# [[22620, 0], [21719, 0]]
# 这意味着模型只学会了预测负类（0），真阳性（TP）和假阳性（FP）都为0。

登录后复制

2. 深入分析：模型预测偏斜的根本原因

当模型陷入单一类别预测的困境时，通常并非简单的超参数调整或网络结构改变就能解决。根本原因往往在于以下几点：

2.1 输入特征与目标变量缺乏有效关联

这是最常见且最难发现的问题。如果数据集中的输入特征（X）与目标变量（Y）之间没有足够强的、可学习的统计关联，那么即使是最复杂的神经网络也无法凭空创造这种关联。模型会发现预测多数类是最“安全”的策略，因为它能最大化训练集上的准确率，而无需真正理解数据。

2.2 特征工程不充分

原始数据可能包含有用的信息，但这些信息没有被有效地提取或转换成模型可以学习的特征。例如，时间戳数据可能需要提取出星期几、月份、小时等周期性特征，或者计算时间差等。如果这些关键特征缺失，模型就难以捕捉到潜在的模式。

2.3 模型复杂度与数据规模不匹配

对于某些问题，如果数据量相对较小或特征之间的关系不复杂，过于深层或宽泛的神经网络可能不是最佳选择。它们可能需要更多的样本才能有效学习，否则容易过拟合噪声或难以收敛到有意义的解。

2.4 数据预处理或编码问题

尽管在示例代码中，数据类型转换、LabelEncoder和Normalizer的使用看起来是标准操作，但如果这些步骤引入了错误，或者没有充分处理异常值、缺失值，也可能导致模型学习失败。例如，Normalizer适用于稀疏数据，而StandardScaler更适用于大多数场景。

2.5 类别不平衡（即使表面平衡也需警惕）

虽然原始问题提到数据集类别比例接近50/50，但类别不平衡仍然是导致模型预测偏斜的常见原因。即使总体平衡，如果训练过程中某个批次出现严重的类别不平衡，或者某些子群体的预测难度差异巨大，模型也可能倾向于简单地预测多数类。

3. 诊断与优化策略

解决模型预测单一类别的问题需要系统性的方法，从数据层面入手，逐步深入到模型优化。

3.1 强化探索性数据分析（EDA）

EDA是解决此类问题的基石。在构建任何复杂模型之前，必须对数据有深入的理解。

360智图

AI驱动的图片版权查询平台

143

查看详情

特征与目标变量的相关性分析：
- 对于数值特征，使用散点图、相关系数（皮尔逊、斯皮尔曼）来观察其与目标变量的关系。
- 对于类别特征，使用交叉表、柱状图和卡方检验来评估其与目标变量的独立性。
- 示例： 针对如 membership status 这样的潜在关键特征，可以可视化不同状态下目标变量（sales 是否高于阈值）的分布。
数据分布与异常值检测： 检查每个特征的分布（直方图、箱线图），识别异常值和潜在的数据质量问题。
时间序列特性分析： 如果数据包含时间信息（如 accessed_date），分析趋势、季节性、周期性以及时间序列特征与目标变量的滞后相关性。

建议： 投入大量时间进行EDA，寻找那些与目标变量有明显关联的“有前景的”特征。如果EDA显示特征与目标之间几乎没有关联，那么任何模型都很难表现良好。

3.2 优先尝试传统机器学习模型

在数据关联性不明确时，直接使用神经网络可能过于复杂。从简单的模型开始，可以快速验证特征的有效性。

逻辑回归（Logistic Regression）： 这是一个优秀的起点。它简单、可解释性强，能够快速揭示特征的预测能力。如果逻辑回归在经过良好特征工程的少量特征上都无法取得可接受的性能，那么神经网络也很可能面临挑战。
决策树或随机森林： 这些模型可以帮助识别最重要的特征，并处理非线性关系。

优势： 传统模型训练速度快，易于调试，其性能可以作为神经网络性能的基线。如果传统模型表现不佳，问题很可能出在数据本身，而非模型选择。

3.3 精细化特征工程

基于EDA的结果，对特征进行转换、组合或创建新特征是至关重要的步骤。

时间特征提取： 从 accessed_date 中提取年、月、日、星期几、小时等信息。计算访问间隔、会话时长等。
交互特征： 组合现有特征以创建新的、更有意义的特征。例如，如果 feature_A 和 feature_B 单独作用不明显，它们的乘积或比值可能具有预测能力。
降维与特征选择： 使用PCA、t-SNE等方法减少特征维度，或使用基于树模型的特征重要性来选择最有用的特征。
处理类别特征： 除了 LabelEncoder，还可以尝试 OneHotEncoder，尤其是在类别数量不多且没有序关系时。对于高基数类别特征，可以考虑目标编码（Target Encoding）或嵌入层（Embedding Layer）。

3.4 检查数据预处理和模型配置

即使数据关联性良好，不当的预处理或模型配置也可能阻碍学习。

归一化/标准化： 确保数值特征的尺度一致。Normalizer 按行进行归一化，而 StandardScaler (均值0，方差1) 或 MinMaxScaler (0-1范围) 更常用。
```
from sklearn.preprocessing import StandardScaler # 常用替代
# scaler = StandardScaler().fit(X)
# X = scaler.transform(X)
```
登录后复制
学习率： 初始学习率 1e-04 可能过小，导致模型收敛缓慢或陷入局部最优。尝试更大的学习率（如 1e-03 或 5e-04），并结合学习率调度器（Learning Rate Scheduler）。
批大小（Batch Size）： 1000 的批大小相对较大，可能导致模型更新不够频繁，难以跳出局部最优。尝试更小的批大小（如 32, 64, 128, 256）。
激活函数与初始化： relu 和 he_normal 对于深层网络是良好的选择，但对于输出层，sigmoid 配合 binary_crossentropy 是二分类的标准配置。
损失函数与评估指标： binary_crossentropy 是二分类的正确损失函数。除了 acc（准确率），更应关注 precision、recall 和 f1-score，尤其是在类别不平衡或预测偏斜时。

3.5 应对类别不平衡（如果存在）

尽管问题描述中数据集是平衡的，但如果实际情况有所偏差或在更细粒度上存在不平衡，可以考虑：

过采样（Over-sampling）： SMOTE (Synthetic Minority Over-sampling Technique) 是常用的方法，通过生成少数类合成样本来平衡数据集。
欠采样（Under-sampling）： 随机移除多数类样本，但可能丢失信息。
代价敏感学习： 在损失函数中为少数类样本赋予更高的权重，迫使模型更关注少数类。Keras可以通过 class_weight 参数在 model.fit() 中实现。