在TensorFlow中本地加载.npz格式数据集的实用指南

碧海醫心

发布时间：2025-11-20 14:04:01

619人浏览过

来源于php中文网

原创

在TensorFlow中本地加载.npz格式数据集的实用指南

当tensorflow内置数据集加载功能因网络限制而失败时，本文提供了一种高效且可靠的替代方案。我们将详细介绍如何手动下载`.npz`格式的数据集（如mnist），并利用numpy库将其直接加载到python环境中，从而避免网络连接问题，确保机器学习项目的顺利进行。

在进行机器学习项目时，我们经常需要使用各种公开数据集。TensorFlow/Keras提供了便捷的API，如tf.keras.datasets.mnist.load_data()，用于自动下载和加载常用数据集。然而，在某些网络受限的环境下，直接通过URL下载数据集可能会遇到连接错误，例如URL fetch failure。此时，将数据集文件（如.npz格式）手动下载到本地，并进行离线加载，成为一种必要的解决方案。

核心问题：网络加载失败与本地化需求

当尝试通过tf.keras.datasets.mnist.load_data()加载MNIST数据集时，如果遇到类似URL fetch failure on https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz: No connection could be made because the target machine actively refused it的错误信息，这意味着程序无法从TensorFlow的官方存储库下载mnist.npz文件。在这种情况下，尽管尝试使用tf.keras.utils.get_file并指定本地路径，但该函数主要用于文件管理（下载、缓存、解压），其返回值是文件路径，而非已解析的数据，因此直接解包会导致too many values to unpack错误。

解决方案：使用NumPy加载本地.npz文件

解决此问题的关键在于绕过TensorFlow的网络下载机制，直接利用Python的数据处理能力来加载本地的.npz文件。NumPy库提供了强大的功能来处理这种二进制格式的数组存储文件。

步骤一：准备本地数据集文件

首先，您需要手动下载所需的.npz数据集文件。以MNIST为例，您可以从TensorFlow的存储库地址（如https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz）下载mnist.npz文件，并将其放置在您的项目目录或一个您容易访问的本地路径下。

知元AI

AI智能语音聊天对讲问答 AI绘画 AI写作 AI创作助手工具

下载

步骤二：编写加载代码

一旦mnist.npz文件准备就绪，您可以使用NumPy的load函数来加载它。.npz文件本质上是一个包含多个NumPy数组的字典，每个数组都以其在保存时指定的名称作为键。

以下是加载MNIST数据集的示例代码：

import numpy as np
import os
import tensorflow as tf # 引入tensorflow是为了后续使用，加载数据本身不需要

# 假设mnist.npz文件位于当前脚本的同一目录下，或者指定完整路径
# path = 'C:/Users/.../mnist.npz' # 根据您的实际路径修改
# 或者使用相对路径
current_dir = os.path.dirname(os.path.abspath(__file__))
path = os.path.join(current_dir, 'mnist.npz')

try:
    with np.load(path, allow_pickle=True) as f:
        # 从.npz文件中提取训练集和测试集数据
        x_train, y_train = f['x_train'], f['y_train']
        x_test, y_test = f['x_test'], f['y_test']

    print(f"成功加载数据集：")
    print(f"训练集图像形状: {x_train.shape}")
    print(f"训练集标签形状: {y_train.shape}")
    print(f"测试集图像形状: {x_test.shape}")
    print(f"测试集标签形状: {y_test.shape}")

    # 数据预处理（通常在加载后进行）
    # 将像素值缩放到0-1范围
    x_train, x_test = x_train / 255.0, x_test / 255.0

    # 进一步处理，例如添加通道维度（如果模型需要）
    # MNIST图像是28x28，通常需要一个通道维度 (28, 28) -> (28, 28, 1)
    x_train = np.expand_dims(x_train, -1)
    x_test = np.expand_dims(x_test, -1)

    print(f"预处理后训练集图像形状: {x_train.shape}")
    print(f"预处理后测试集图像形状: {x_test.shape}")

except FileNotFoundError:
    print(f"错误：未找到文件 {path}。请确保mnist.npz文件存在于指定路径。")
except Exception as e:
    print(f"加载数据集时发生错误: {e}")

# 现在x_train, y_train, x_test, y_test 变量已包含数据集
# 您可以继续构建和训练您的TensorFlow模型
# 例如：
# model = tf.keras.models.Sequential([
#     tf.keras.layers.Flatten(input_shape=(28, 28, 1)),
#     tf.keras.layers.Dense(128, activation='relu'),
#     tf.keras.layers.Dropout(0.2),
#     tf.keras.layers.Dense(10, activation='softmax')
# ])
# model.compile(optimizer='adam',
#               loss='sparse_categorical_crossentropy',
#               metrics=['accuracy'])
# model.fit(x_train, y_train, epochs=5)
# model.evaluate(x_test, y_test)

注意事项

文件路径的准确性： 确保path变量指向正确的mnist.npz文件位置。使用os.path.join构建路径可以提高代码在不同操作系统上的兼容性，并避免手动拼接路径可能导致的错误。
allow_pickle=True： np.load函数中的allow_pickle=True参数允许加载包含Python对象（例如，如果数据集中存储了非基本NumPy类型的数据）的文件。虽然对于标准的MNIST .npz文件可能不是严格必需，但为了兼容性或处理其他更复杂的数据集，将其设置为True通常是安全的做法。然而，请注意，从不受信任的源加载带有allow_pickle=True的文件存在安全风险，因为它可能执行任意代码。对于官方数据集通常是安全的。
数据集结构： .npz文件是一个字典，您需要知道其中各个数组的键名（例如x_train, y_train等）才能正确提取数据。这些键名通常在数据集的文档中说明，或者通过加载文件后打印f.keys()来查看。
数据类型与形状： 成功加载后，x_train, y_train等变量将是NumPy数组。在将其传递给TensorFlow模型之前，您可能需要进行进一步的预处理，例如数据归一化（如示例中的x_train / 255.0）或形状调整（例如，为图像数据添加通道维度np.expand_dims，因为许多卷积神经网络模型期望输入有通道维度）。
错误处理： 在实际应用中，加入try-except块来处理FileNotFoundError或其他潜在的加载错误，可以提高代码的健壮性。

总结

通过上述方法，即使在没有互联网连接或网络受限的环境下，您也能够灵活地加载本地的.npz格式数据集。这种方法不仅解决了TensorFlow内置API的网络依赖问题，还提供了一个通用的数据加载模式，适用于任何以.npz格式存储的NumPy数组集合。掌握这一技巧，将使您的机器学习开发流程更加独立和高效。

如何准确识别运行环境：区分 MSYS2、PowerShell 与 CMD

如何批量请求多个URL并将结果合并保存为CSV文件

Python requests.get 响应编码不一致问题的根源与解决方案

Python 进程池 Pool 的任务分发机制

Python 中排序为什么如此灵活？

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

769

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

661

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

659

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1345

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

549

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

730

2023.08.11