Slurm 作业长时间挂起未完成的排查与环境一致性解决方案

聖光之護

发布时间：2026-01-15 12:32:03

234人浏览过

来源于php中文网

原创

Slurm 作业长时间挂起未完成的排查与环境一致性解决方案

本文详解 slurm 集群中 python 脚本“卡住不报错也不退出”的典型原因——本地与集群环境（尤其是 numpy/scipy/python 版本及 conda 环境）不一致，并提供可落地的版本对齐与隔离部署方案。

在 Slurm 集群上运行 Hugging Face Transformers 相关数据预处理脚本时，出现「本地 2 分钟完成，集群运行 4 小时无进展、最终被 time limit 强制终止」的现象，根本原因几乎总是环境不一致导致的隐式阻塞或兼容性降级，而非代码逻辑错误。

最典型的线索已在日志中明确暴露：

A NumPy version >=1.16.5 and <1.23.0 is required for this version of SciPy (detected version 1.24.4)

这说明：集群节点上的 numpy==1.24.4 与当前 scipy（很可能由旧版 transformers 或 datasets 间接依赖）存在ABI 不兼容。虽然 NumPy 通常向后兼容，但 1.24.x 移除了部分 C API 符号，某些科学计算库（尤其静态链接或混合编译的组件）可能陷入死锁、无限重试或静默挂起——表现为 dataset.map() 卡住、tokenizer 初始化延迟激增，且无异常抛出。

此外，警告信息：

The tokenizer class you load from this checkpoint is 'BertTokenizer'. 
The class this function is called from is 'RobertaTokenizerFast'.

虽不直接致死，但暗示模型/分词器路径混用（如用 BERT 的 tokenizer 加载 RoBERTa 模型），可能触发底层 tokenizers 库的非预期行为（如线程安全问题、共享内存初始化失败），在多核 Slurm 节点上更易暴露。

✅ 可靠解决路径：严格环境隔离 + 版本锁定

聚蜂消防BeesFPD

关注消防领域的智慧云平台

下载

本地验证最小可行环境
在本地 Linux 创建纯净 Conda 环境，显式指定关键版本（与集群目标一致）：

conda create -n slurm-env python=3.8.18
conda activate slurm-env
pip install "numpy>=1.21.0,<1.23.0" "scipy>=1.7.0,<1.10.0" \
            "transformers==4.33.2" "datasets==2.14.6" "tokenizers==0.13.3"

运行原脚本，确认耗时稳定在 2–3 分钟内。

集群端复现相同环境
将环境导出为可复现的 YAML：

conda env export --from-history > environment.yml

上传至集群，在计算节点执行：

conda env create -f environment.yml
conda activate slurm-env
# 验证关键包版本
python -c "import numpy, scipy; print(numpy.__version__, scipy.__version__)"

SLURM 脚本中显式激活环境
避免依赖全局 PATH，确保每次作业使用纯净环境：

#!/bin/bash
#SBATCH --job-name=hf-preproc
#SBATCH --time=00:10:00  # 合理预留时间（如 10 分钟）

module load anaconda3  # 加载集群基础 Anaconda
source $HOME/miniconda3/etc/profile.d/conda.sh
conda activate slurm-env

python your_script.py

⚠️ 关键注意事项

勿跳过 --from-history：conda env export 默认包含构建信息（build hash），跨平台可能失效；--from-history 仅导出 conda install 和 pip install 显式命令，保证重建一致性。
检查 datasets 的 num_proc 行为：dataset.map(..., batched=True) 默认启用多进程（num_proc=os.cpu_count()）。若集群节点 CPU 核数远高于本地（如 64 核），而内存不足或共享文件系统（如 NFS）性能差，会导致进程创建卡顿。建议显式限制：
```
mapped_dataset = dataset.map(
    lambda x: tokenizer(...), 
    batched=True, 
    num_proc=8  # 根据节点内存调整，避免 OOM
)
```
验证 tokenizer 路径一致性：确保 /data/home//raw_roberta/Roberta_Tokenizer 下存在 tokenizer_config.json 且 tokenizer_class 字段为 "RobertaTokenizerFast"，而非 "BertTokenizer"。若混用，应统一使用 RoBERTa 对应的 tokenizer checkpoint。

通过以上步骤，90% 以上的 Slurm “假死”问题可被根治。核心原则是：HPC 环境必须视为不可信黑盒，一切依赖须显式声明、隔离部署、版本锁定——优雅的容错，始于严苛的确定性。

怎么看有没有装python

python3怎么下载

linux如何打开python

linux中如何使用python

如何让vim支持python3

相关标签:

linux python js json app red Python json numpy scipy pip conda 线程 map history bert linux

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何优雅地处理 functools.reduce 在空迭代器上的异常？下一篇：暂无

作者最新文章

现代都市斗法罗刹？这款新作把印度神话玩出花！

2026-01-12 14:26

如何强制 Chrome 加载网页最新版本而不依赖手动清缓存

2026-01-12 14:27

如何解决笔记本触摸板“轻触点击”无法触发 onclick 事件的问题

2026-01-12 14:34

快手如何发图集作品

2026-01-12 14:43

360手机浏览器无痕模式怎么设置

2026-01-12 14:47

只差官宣了？《使命召唤》启动器代码出现任天堂标识

2026-01-12 14:53

商品怎么置顶视频号评论？评论区置顶广告位在哪？

2026-01-12 15:08

抖音私信获客适合什么行业？私信获客的收费标准是什么？

2026-01-12 15:13

商家回应一盒内存条能买上海一套房：还真差不多！

2026-01-12 15:18

新三国志曹操传沙盘1750-1949过关攻略

2026-01-12 15:23

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

753

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

636

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

758

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

618

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1262

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

707

2023.08.11

Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践，涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC（Unary/Server/Client/Bidirectional）、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例，帮助学习者掌握使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系，适用于微服务与内部系统通信场景。

2026.01.15

热门下载

网站特效

网站源码

网站素材

前端模板