NumPy argmax 在手写数字识别中返回错误索引的解决方案-Python教程-PHP中文网

NumPy argmax 在手写数字识别中返回错误索引的解决方案

霞舞

发布： 2025-07-19 18:42:11

原创

825人浏览过

numpy argmax 在手写数字识别中返回错误索引的解决方案

本文针对手写数字识别模型中 np.argmax 返回错误索引的问题，提供了一种基于图像预处理的解决方案。通过使用 PIL 库进行图像处理，确保输入模型的数据格式正确，从而避免因数据维度错误导致的预测偏差。同时，提供完整的代码示例和Colab链接，方便读者实践和验证。

在使用深度学习模型进行手写数字识别时，可能会遇到模型预测结果正确，但使用 np.argmax 函数获取预测类别时，返回的索引与预期不符的情况。这种问题通常是由于输入模型的图像数据格式不正确导致的，例如图像的通道数不符合模型的要求。

问题分析

在提供的代码中，使用 OpenCV (cv2) 读取图像，并将其转换为 RGB 格式。然而，手写数字通常以灰度图像表示。如果 cv2.imread 读取的图像并非灰度图像，或者转换过程不正确，可能导致图像的形状变为 (4, 28, 28) 而不是 (1, 28, 28)，其中4代表了图像的通道数。这会导致模型将该图像误认为是一个包含 4 个样本的批次，从而产生错误的预测结果。

解决方案

为了解决这个问题，建议使用 PIL (Pillow) 库进行图像处理，并确保输入模型的图像是灰度图像，且形状为 (1, 28, 28)。

Felvin

AI无代码市场，只需一个提示快速构建应用程序

161

查看详情

以下是使用 PIL 库进行图像预处理的代码示例：

from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
from tensorflow import keras
from keras import models

# 加载模型和类别名称 (假设已经训练好并保存了模型)
model = models.load_model("handwritten_classifier.model")
class_names = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

# 读取图像
image_name = "five.png"  # 替换为你的图像文件名
image = Image.open(image_name)

# 调整图像大小为 28x28
img = image.resize((28, 28), Image.Resampling.LANCZOS)

# 转换为灰度图像
img = img.convert("L")

# 打印图像形状
print(np.array(img).shape)

# 显示图像
plt.imshow(img, cmap=plt.cm.binary)
plt.show()

# 预测
prediction = model.predict(np.array(img).reshape(-1, 28, 28) / 255.0)

# 打印预测结果
print(prediction)

# 获取预测类别
index = np.argmax(prediction)
print(index)
print(f"Prediction is {class_names[index]}")

登录后复制

代码解释

导入必要的库: 导入 PIL 库用于图像处理，numpy 用于数组操作，matplotlib 用于显示图像，以及 tensorflow/keras 用于加载模型。
加载模型和类别名称: 从保存的文件中加载已经训练好的模型和类别名称。确保模型文件路径正确。
读取图像: 使用 Image.open() 函数读取图像。
调整图像大小: 使用 image.resize() 函数将图像大小调整为 28x28 像素。 Image.Resampling.LANCZOS 指定了重采样方法，可以根据需要选择其他方法。
转换为灰度图像: 使用 img.convert("L") 函数将图像转换为灰度图像。 "L" 模式表示灰度图像。
打印图像形状: 打印图像的形状，确保其为 (28, 28)。
显示图像: 使用 plt.imshow() 函数显示图像。 cmap=plt.cm.binary 指定了颜色映射为黑白。
预测: 使用 model.predict() 函数进行预测。在预测之前，需要将图像转换为 numpy 数组，并调整形状为 (1, 28, 28)，然后将像素值归一化到 0 到 1 之间。
打印预测结果: 打印模型的原始预测结果。
获取预测类别: 使用 np.argmax() 函数获取预测概率最高的类别索引。
打印预测类别: 根据类别索引从 class_names 列表中获取对应的类别名称并打印。