
本文针对keras二分类模型始终预测同一类别的问题进行深入探讨。即便数据集平衡且模型结构合理,此类问题仍可能源于特征与目标变量间缺乏可学习的相关性。教程将通过分析数据预处理、模型构建代码,并提出以探索性数据分析(eda)为基础,结合简单模型验证特征有效性,以及精细化特征工程等策略,指导读者诊断并解决此类模型失效问题,强调理解数据本质先于复杂模型应用的重要性。
在构建Keras二分类神经网络时,有时会遇到模型始终预测同一类别(通常是训练集中实例较多的类别)的困境,即使数据集的类别分布相对平衡。这种现象表明模型未能从数据中学习到有效的判别模式,其预测结果缺乏实际意义。
例如,在一次销售额预测任务中,目标是将销售额二值化为“高销售”(True)和“低销售”(False)。尽管训练数据中两类别的比例接近50/50,但训练后的模型在测试集上却表现出以下混淆矩阵:
| 预测为正类 | 预测为负类 | |
|---|---|---|
| 真实为正类 | 0 (TP) | 21719 (FN) |
| 真实为负类 | 0 (FP) | 22620 (TN) |
从混淆矩阵中可以看出,模型将所有样本都预测为负类。这意味着模型完全没有学习到如何识别正类样本,或者说它认为所有样本都更倾向于负类。这并非简单的过拟合或欠拟合,而是更深层次的“无信号”问题。
为了更深入地理解问题,我们首先回顾模型构建的关键步骤,包括数据准备、数据集划分和神经网络结构。
数据预处理阶段旨在将原始数据转换为模型可接受的数值格式,并对目标变量进行二值化。
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, Normalizer
from sklearn.model_selection import train_test_split
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.initializers import he_normal
# 假设 purchase_data 已加载,并进行复制
data = purchase_data.copy()
# 将销售额二值化:高于 target_sum 为 True,否则为 False
target_sum = 120
data.loc[data['sales'] <= target_sum, 'sales'] = False
data.loc[data['sales'] > target_sum, 'sales'] = True
# 对类别型特征和布尔型特征进行 Label Encoding
labelencoder = LabelEncoder()
for col in data.columns.values.tolist():
if data[col].dtype == "object" or data[col].dtype == "bool":
data[col] = labelencoder.fit_transform(data[col])
# else: 数值型特征无需额外处理,但可能需要归一化
# 将日期时间特征转换为浮点数(时间戳)
data['accessed_date'] = data['accessed_date'].apply(lambda x: x.timestamp())
# 分离特征 X 和目标变量 Y
array = data.values
class_column = 'sales' # 目标列
X = np.delete(array, data.columns.get_loc(class_column), axis=1) # 移除目标列
Y = array[:,data.columns.get_loc(class_column)] # 选取目标列
Y = Y[:, np.newaxis] # 调整 Y 的形状以适应 Keras 输入
# 对输入特征 X 进行归一化处理
scaler = Normalizer().fit(X)
X = scaler.transform(X)说明:
数据集被划分为训练集和测试集,并使用了分层抽样以确保类别分布在训练集和测试集中保持一致。
seed = 1 X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.33, random_state=seed, shuffle = True, stratify=(Y))
说明:
模型采用多层感知机(MLP)结构,包含隐藏层和 Dropout 层用于正则化。
tf.random.set_seed(seed) # 构建神经网络模型 modeldl = Sequential() modeldl.add(Dense(64, input_dim=X.shape[1], activation='relu', kernel_initializer=he_normal())) modeldl.add(Dropout(0.2)) # 添加 Dropout 层防止过拟合 modeldl.add(Dense(32, activation='relu', kernel_initializer=he_normal())) modeldl.add(Dropout(0.2)) modeldl.add(Dense(1, activation='sigmoid', kernel_initializer=he_normal())) # 输出层使用 sigmoid 激活函数进行二分类 # 编译模型 optimizer = tf.keras.optimizers.Adam(learning_rate=1e-04) # 使用 Adam 优化器,并设置学习率 modeldl.compile(loss='binary_crossentropy', optimizer=optimizer, metrics=['acc']) # 损失函数为二元交叉熵,评估指标为准确率 # 模型训练(此处省略实际训练代码,仅展示结构) # results = modeldl.fit(X_train, Y_train, epochs=80, batch_size=1000, verbose=1)
说明:
从代码层面看,数据预处理、数据集划分和神经网络构建都遵循了常见的最佳实践,没有明显的语法或逻辑错误。然而,模型仍然无法学习,这提示我们问题可能不在于代码本身,而在于数据更深层次的特性。
当神经网络模型在代码无误且数据集平衡的情况下,仍旧无法学习并总是预测同一类别时,最根本的原因往往是输入特征与目标变量之间缺乏可学习的强相关性。换句话说,模型无法从现有特征中找到任何有意义的模式来区分不同的类别。
针对这种情况,以下是推荐的诊断与解决策略:
在投入大量精力调整模型超参数之前,首先应该对数据进行彻底的探索性数据分析(EDA)。EDA是理解数据、发现模式、识别异常和评估特征与目标变量之间关系的基础。
如果EDA显示所有特征与目标变量之间几乎没有相关性,那么任何复杂的模型都难以学习。
在尝试复杂的神经网络之前,先使用简单、可解释的机器学习模型(如逻辑回归、决策树、支持向量机等)来验证特征的有效性。
以上就是Keras二分类模型预测单一类别:深度诊断与解决方案的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号