解决LSTM时间序列预测中的数据维度与Cardinality错误

心靈之曲

发布时间：2025-12-08 18:13:13

455人浏览过

来源于php中文网

原创

解决LSTM时间序列预测中的数据维度与Cardinality错误

针对lstm时间序列预测中常见的“数据基数模糊”错误，本教程详细阐述了如何正确准备输入序列数据（x和y），包括滑动窗口机制构建训练样本，以及如何调整lstm层的`input_shape`。同时，纠正了回归任务中输出层激活函数和损失函数的选择，提供了完整的keras代码示例，帮助读者构建和训练有效的lstm模型进行时间序列预测。

循环神经网络（RNN），特别是长短期记忆网络（LSTM），在处理时间序列数据方面表现出色。然而，初学者在使用Keras构建LSTM模型进行时间序列预测时，常会遇到数据准备和模型配置上的挑战，其中最典型的问题是“Data cardinality is ambiguous”（数据基数模糊）错误，这通常源于输入特征X和目标标签Y的样本数量不匹配，以及input_shape设置不当。本教程将详细指导如何正确处理这些问题，并提供一个完整的实践案例。

1. 理解时间序列数据的输入-输出结构

在时间序列预测中，我们通常希望根据历史的n个时间步来预测下一个时间步的值。例如，给定序列[1, 2, 3, 4, 5, 6, 7]，如果我们要根据前两个值预测第三个值，那么训练样本将是：

输入 [1, 2] 预测 3
输入 [2, 3] 预测 4
输入 [3, 4] 预测 5
输入 [4, 5] 预测 6
输入 [5, 6] 预测 7

从上述示例可以看出，输入X和目标Y的样本数量是不同的，但它们必须一一对应。原始序列有7个元素，而通过滑动窗口方式生成的训练样本对只有5个。这就是“Data cardinality is ambiguous”错误的核心原因：Keras要求X和Y在训练时必须拥有相同数量的样本。

2. 正确准备时间序列数据集

为了解决数据基数问题，我们需要编写一个数据加载器（dataloader）函数，将原始一维时间序列数据转换为符合LSTM输入要求的格式。

2.1 数据加载器函数

该函数将原始序列data和序列长度sequences_length（即滑动窗口大小）作为输入，生成X（输入序列）和Y（目标值）对。

import numpy as np
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

# 原始时间序列数据
data = np.array([1, 2, 3, 4, 5, 6, 7])
sequences_length = 2 # 使用前2个时间步预测下一个

def create_sequences(data, sequences_length):
    X, Y = [], []
    for i in range(len(data) - sequences_length):
        X.append(data[i : i + sequences_length])
        Y.append(data[i + sequences_length])
    return np.array(X), np.array(Y)

X_raw, Y_raw = create_sequences(data, sequences_length)

# 打印生成的样本对进行检查
print("生成的输入序列 X_raw:")
print(X_raw)
print("\n对应的目标值 Y_raw:")
print(Y_raw)

# 预期输出:
# X_raw:
# [[1 2]
#  [2 3]
#  [3 4]
#  [4 5]
#  [5 6]]
# Y_raw:
# [3 4 5 6 7]

现在，X_raw和Y_raw都包含5个样本，解决了数据基数不匹配的问题。

2.2 重塑输入数据以符合LSTM要求

LSTM层期望的输入形状是三维的：(num_samples, timesteps, num_features)。

num_samples: 样本数量，即X_raw.shape[0]。
timesteps: 每个序列的时间步长，即sequences_length。
num_features: 每个时间步的特征数量。在这个一维时间序列的例子中，每个时间步只有一个特征，所以num_features是1。

因此，我们需要将X_raw从(num_samples, sequences_length)重塑为(num_samples, sequences_length, 1)。

X = np.reshape(X_raw, (X_raw.shape[0], sequences_length, 1))

print("\n重塑后的 X 形状:", X.shape)
print("重塑后的 X 内容:")
print(X)
# 预期输出:
# 重塑后的 X 形状: (5, 2, 1)
# 重塑后的 X 内容:
# [[[1]
#   [2]]
#
#  [[2]
#   [3]]
#
#  [[3]
#   [4]]
#
#  [[4]
#   [5]]
#
#  [[5]
#   [6]]]

至此，我们的输入数据X和目标数据Y_raw（可以重命名为Y）已经准备完毕，可以用于LSTM模型的训练。

Meituan CatPaw

美团推出的智能AI编程Agent

下载

3. 构建与配置LSTM模型

模型的构建需要注意LSTM层的input_shape和输出层的激活函数。

3.1 LSTM层 input_shape

layers.LSTM的input_shape参数应指定单个样本的形状，即(timesteps, num_features)。在本例中，为(sequences_length, 1)。

3.2 输出层与激活函数

由于这是一个回归任务（预测一个具体的数值），输出层应该是一个Dense(1)层，且不应使用softmax激活函数。softmax用于多分类任务，会强制输出值的和为1，这与回归预测的需求不符。对于回归任务，通常使用线性激活（即不指定激活函数，Dense层默认为线性激活），或者在某些情况下使用relu等。

3.3 模型编译

对于回归任务，应选择合适的损失函数，如均方误差（Mean Squared Error, mse）或平均绝对误差（Mean Absolute Error, mae）。优化器可以选择adam或rmsprop。不应使用accuracy作为评估指标，因为它适用于分类任务。

model = keras.Sequential([
    layers.LSTM(64, input_shape=(sequences_length, 1)), # input_shape = (timesteps, features)
    layers.Dense(1) # 回归任务，输出一个数值，默认线性激活
])

model.compile(optimizer="adam", loss="mse")

model.summary()

4. 模型训练与预测

数据和模型都准备好后，就可以进行训练和预测了。

4.1 模型训练

# 将Y_raw重命名为Y以保持一致性
Y = Y_raw

print("\n开始训练模型...")
model.fit(X, Y, epochs=1000, batch_size=1, verbose=0) # verbose=0 避免打印过多训练日志
print("模型训练完成。")

4.2 模型预测

训练完成后，我们可以使用模型对新的序列进行预测。例如，预测序列[8, 9]的下一个值。

inference_data = np.array([[8, 9]]).reshape(1, sequences_length, 1)
predicted_value = model.predict(inference_data)

print(f"\n预测 [8, 9] 的下一个值: {predicted_value[0][0]:.2f}")
# 期望预测结果接近 10

5. 注意事项与最佳实践

数据归一化： 对于大多数神经网络，尤其是LSTM，输入数据的归一化（例如，缩放到0-1或-1到1范围）至关重要。这有助于模型更快收敛，并提高训练稳定性。本例数据范围较小，未进行归一化，但在实际应用中应优先考虑。
超参数调优： LSTM层的单元数量（例如本例中的64）、训练周期（epochs）、批次大小（batch_size）等都是重要的超参数，需要根据具体任务和数据进行调优。
过拟合： 随着模型复杂度的增加和训练周期的延长，模型可能会出现过拟合。可以通过引入Dropout层、使用L1/L2正则化、提前停止（Early Stopping）等技术来缓解。
验证集： 在实际项目中，应将数据划分为训练集、验证集和测试集。验证集用于在训练过程中监控模型性能，并进行超参数调优，防止模型在训练集上表现良好但在未见过的数据上表现不佳。
多特征时间序列： 如果每个时间步有多个特征（例如，股票的开盘价、最高价、最低价、收盘价），则num_features将大于1，X的形状将是(num_samples, timesteps, num_features)。相应地，input_shape应设置为(timesteps, num_features)。

总结

解决LSTM时间序列预测中的“Data cardinality is ambiguous”错误和相关维度问题，关键在于正确理解LSTM的输入要求并进行相应的数据预处理。通过滑动窗口机制生成X和Y样本对，并确保它们数量一致。同时，将X重塑为(num_samples, timesteps, num_features)的三维结构，并为LSTM层设置正确的input_shape。最后，针对回归任务选择合适的输出层激活函数（线性）和损失函数（如mse），避免使用分类任务的softmax和accuracy。遵循这些步骤，将能有效地构建和训练用于时间序列预测的LSTM模型。

如何在 Kivy 应用中正确引用屏幕内的控件（如 TextInput）

Django 外部脚本中正确配置 ORM 环境以加载自定义 App 模块

Django 外部脚本中正确配置 ORM 并导入自定义 App 模块的完整指南

Django 外部脚本中正确配置 ORM 并导入自定义 App 模块

Flask 中使用 url_for() 生成路由链接的正确方法