Keras模型输入维度不匹配：数据预处理一致性指南-Python教程-PHP中文网

Keras模型输入维度不匹配：数据预处理一致性指南

在keras深度学习模型中，`valueerror: input 0 of layer ... is incompatible with the layer` 错误通常源于训练数据与预测数据之间特征维度的不一致。这常见于数据预处理阶段，特别是使用`pd.get_dummies`进行独热编码时，若训练集和预测集的类别分布不同，可能导致特征列数量或顺序不匹配。解决此问题的核心在于确保模型在训练和推理时接收到的特征矩阵具有完全相同的列结构。

理解Keras输入维度不匹配错误

当Keras模型抛出 ValueError: Input 0 of layer "sequential_4" is incompatible with the layer: expected shape=(None, 7), found shape=(None, 5) 时，它明确指出模型在训练时被配置为接收具有7个特征（列）的输入（expected shape=(None, 7)），但在进行预测时，提供的数据却只有5个特征（found shape=(None, 5)）。这里的 None 代表批次大小，表示模型可以处理任意数量的样本，但每个样本的特征数量必须固定。

这种不匹配的根本原因通常在于数据预处理流程在训练阶段和预测阶段未能保持一致性。在提供的代码中，pd.get_dummies 函数用于对分类特征 'Località' 进行独热编码，这是导致特征数量变化的关键环节。

独热编码与特征维度变化

原始数据集有5个特征（不包括目标列 'Prezzo'）。当对 'Località' 列进行 pd.get_dummies 处理时：

如果 'Località' 列有N个唯一值，它将被转换为N个新的二元特征列。
原始的 'Località' 列会被删除。
最终的特征数量将是原始数值特征数量 + N。

例如，如果原始数据集有4个数值特征和1个 'Località' 特征，且 'Località' 有3个唯一值（如 'Roma', 'Milano', 'Torino'），那么经过 get_dummies 后，特征数量将变为 4 + 3 = 7。

问题在于，训练数据 X_train 经过 get_dummies 后可能得到了7个特征，因此模型被 input_dim=X_train.shape[1] 正确配置为接收7个特征。然而，当用户输入数据并对其执行 get_dummies 时，如果用户输入的 'Località' 值（例如只输入 'Roma'）在训练集中并非全部存在，或者用户数据框中只有一个样本，get_dummies 可能会生成一个不同数量的特征列。例如，如果用户只输入 'Roma'，dataframe = pd.DataFrame([user_data]) 之后，pd.get_dummies(dataframe, columns=['Località']) 可能只生成一列 'Località_Roma'，导致最终特征数量与训练时不同。

解决方案：确保训练与预测数据预处理的一致性

解决此问题的核心是确保用于预测的数据在经过预处理后，其特征列的数量和顺序与训练模型时使用的 X_train 完全一致。

CodeBuddy

腾讯云AI代码助手

805

查看详情

1. 动态获取训练集特征列

首先，我们需要在模型训练阶段记录下 X_train 经过独热编码后的所有列名。这些列名将作为预测数据预处理的基准。

import pandas as pd
from sklearn.model_selection import train_test_split
from keras.models import Sequential
from keras.layers import Dense, Dropout
from keras.optimizers import Adam
from keras.regularizers import l2
import numpy as np

def carica_dataset():
    dataset = pd.read_csv("dataset.csv")
    return dataset

# 全局变量或通过函数返回，用于存储训练时的特征列
training_feature_columns = None 

def carica_modello():
    global training_feature_columns # 声明使用全局变量
    dataset = carica_dataset()

    # 对整个数据集进行独热编码，确保所有可能的类别都被考虑
    # 或者只对训练集进行独热编码，然后将编码器保存下来
    # 这里我们选择在训练前对整个数据集进行独热编码，以获取所有可能的列
    # 但更严谨的做法是先分训练集测试集，然后对训练集进行get_dummies，并保存列名

    # 假设我们只对训练集进行get_dummies，并保存列名
    X_raw = dataset.drop(columns=['Prezzo'])
    y = dataset['Prezzo']

    X_train_raw, X_test_raw, y_train, y_test = train_test_split(X_raw, y, test_size=0.2, random_state=42)

    # 对训练集进行独热编码
    X_train = pd.get_dummies(X_train_raw, columns=['Località'])
    # 记录训练集独热编码后的列名
    training_feature_columns = X_train.columns.tolist() 

    # 对测试集进行独热编码，并确保列与训练集一致
    X_test = pd.get_dummies(X_test_raw, columns=['Località'])
    X_test = X_test.reindex(columns=training_feature_columns, fill_value=0) # 填充缺失列为0

    print(f"X_train shape after one-hot encoding: {X_train.shape}")
    print(f"X_train columns: {X_train.columns.tolist()}")

    model = Sequential()
    # input_dim 必须与 X_train 的特征数量一致
    model.add(Dense(64, activation='relu', input_dim=X_train.shape[1],  kernel_regularizer=l2(0.1)))
    model.add(Dropout(0.5))
    model.add(Dense(32, activation='relu',  kernel_regularizer=l2(0.1)))
    model.add(Dropout(0.5))
    model.add(Dense(16, activation='relu', kernel_regularizer=l2(0.1)))
    model.add(Dropout(0.5))
    model.add(Dense(8, activation='relu', kernel_regularizer=l2(0.1)))
    model.add(Dropout(0.5))
    model.add(Dense(1, activation='linear', kernel_regularizer=l2(0.1)))
    adam = Adam()

    model.compile(loss='mean_squared_error', optimizer=adam, metrics=['accuracy'])

    model.fit(X_train, y_train, epochs=100, batch_size=64, verbose=0) # verbose=0 减少输出

    return model

# 主程序部分
dataset = carica_dataset()
model = carica_modello() # 此时 training_feature_columns 已经被填充

fields = {
    'Superficie': float,
    'Numero di stanze da letto': int,
    'Numero di bagni': int,
    'Anno di costruzione': int,
    'Località': str
}
user_data = {}

for key,value in fields.items():
    while True:
        try:
            user_input = input(f"inserisci il valore di: {key}: ")
            user_data[key] = value(user_input)
            break
        except ValueError:
            print(f"inserisci un valore valido per {key}")

# 将用户输入转换为DataFrame
dataframe = pd.DataFrame([user_data])

# 对用户输入数据进行独热编码
dataframe = pd.get_dummies(dataframe, columns=['Località'])

# 关键步骤：使用训练时的列名对用户数据DataFrame进行reindex
# 这将确保用户数据DataFrame拥有与X_train完全相同的列，缺失的列填充为0
if training_feature_columns is not None:
    dataframe = dataframe.reindex(columns=training_feature_columns, fill_value=0)
else:
    raise ValueError("Training feature columns not set. Ensure carica_modello was called.")

print(f"User input dataframe shape after reindexing: {dataframe.shape}")
print(f"User input dataframe columns: {dataframe.columns.tolist()}")

valori = dataframe.values

prediction = model.predict(valori)[0][0]
print(f'La predizione del prezzo è: {prediction} €')

登录后复制

2. 注意事项与最佳实践

列名一致性： pd.get_dummies 在处理不同数据集时，如果某个类别只出现在一个数据集中，会导致生成不同的列。使用 reindex 是确保列名和顺序一致的有效方法，fill_value=0 用于填充新引入的列。

持久化预处理器： 在生产环境中，更推荐使用 sklearn.preprocessing.OneHotEncoder 或 ColumnTransformer。这些工具允许你在训练数据上 fit 预处理器，然后用同一个 fitted 预处理器 transform 训练数据、测试数据和新的预测数据。这样可以确保预处理逻辑在所有阶段都完全一致。

from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

# 假设 X_raw 是原始特征数据，y 是目标
# X_train_raw, X_test_raw, y_train, y_test = train_test_split(...)

categorical_features = ['Località']
numerical_features = ['Superficie', 'Numero di stanze da letto', 'Numero di bagni', 'Anno di costruzione']

# 创建预处理器
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features), # handle_unknown='ignore' 处理预测时出现的新类别
        ('num', 'passthrough', numerical_features)
    ])

# 在训练数据上拟合预处理器
X_train_processed = preprocessor.fit_transform(X_train_raw)
X_test_processed = preprocessor.transform(X_test_raw)

# 此时 X_train_processed 和 X_test_processed 是 numpy 数组，可以直接用于Keras模型
# Keras模型的 input_dim = X_train_processed.shape[1]

# 预测时：
user_data_df = pd.DataFrame([user_data])
user_data_processed = preprocessor.transform(user_data_df)
# prediction = model.predict(user_data_processed)

登录后复制

调试检查： 在遇到此类错误时，务必在关键数据处理步骤后打印数据框的 shape 和 columns 属性，例如 print(X_train.shape, X_train.columns) 和 print(dataframe.shape, dataframe.columns)，以直观地检查维度和列名是否一致。

总结

Keras模型输入维度不匹配的 ValueError 错误是数据科学家和机器学习工程师常遇到的问题，其根源在于训练和预测阶段的数据预处理不一致。通过确保独热编码等特征工程步骤在所有数据集上产生相同数量和顺序的特征列，或者利用 sklearn 的预处理管道工具，可以有效地避免此类问题，保证模型在实际应用中的稳定性和准确性。始终牢记：模型期望的输入形状必须与实际提供的输入形状严格匹配。

以上就是Keras模型输入维度不匹配：数据预处理一致性指南的详细内容，更多请关注php中文网其它相关文章！