
本文详解 slurm 集群中 python 脚本“卡住不报错也不退出”的典型原因——本地与集群环境(尤其是 numpy/scipy/python 版本及 conda 环境)不一致,并提供可落地的版本对齐与隔离部署方案。
在 Slurm 集群上运行 Hugging Face Transformers 相关数据预处理脚本时,出现「本地 2 分钟完成,集群运行 4 小时无进展、最终被 time limit 强制终止」的现象,根本原因几乎总是环境不一致导致的隐式阻塞或兼容性降级,而非代码逻辑错误。
最典型的线索已在日志中明确暴露:
A NumPy version >=1.16.5 and <1.23.0 is required for this version of SciPy (detected version 1.24.4)
这说明:集群节点上的 numpy==1.24.4 与当前 scipy(很可能由旧版 transformers 或 datasets 间接依赖)存在ABI 不兼容。虽然 NumPy 通常向后兼容,但 1.24.x 移除了部分 C API 符号,某些科学计算库(尤其静态链接或混合编译的组件)可能陷入死锁、无限重试或静默挂起——表现为 dataset.map() 卡住、tokenizer 初始化延迟激增,且无异常抛出。
此外,警告信息:
The tokenizer class you load from this checkpoint is 'BertTokenizer'. The class this function is called from is 'RobertaTokenizerFast'.
虽不直接致死,但暗示模型/分词器路径混用(如用 BERT 的 tokenizer 加载 RoBERTa 模型),可能触发底层 tokenizers 库的非预期行为(如线程安全问题、共享内存初始化失败),在多核 Slurm 节点上更易暴露。
✅ 可靠解决路径:严格环境隔离 + 版本锁定
-
本地验证最小可行环境
在本地 Linux 创建纯净 Conda 环境,显式指定关键版本(与集群目标一致):conda create -n slurm-env python=3.8.18 conda activate slurm-env pip install "numpy>=1.21.0,<1.23.0" "scipy>=1.7.0,<1.10.0" \ "transformers==4.33.2" "datasets==2.14.6" "tokenizers==0.13.3"运行原脚本,确认耗时稳定在 2–3 分钟内。
-
集群端复现相同环境
将环境导出为可复现的 YAML:conda env export --from-history > environment.yml
上传至集群,在计算节点执行:
conda env create -f environment.yml conda activate slurm-env # 验证关键包版本 python -c "import numpy, scipy; print(numpy.__version__, scipy.__version__)"
-
SLURM 脚本中显式激活环境
避免依赖全局 PATH,确保每次作业使用纯净环境:#!/bin/bash #SBATCH --job-name=hf-preproc #SBATCH --time=00:10:00 # 合理预留时间(如 10 分钟) module load anaconda3 # 加载集群基础 Anaconda source $HOME/miniconda3/etc/profile.d/conda.sh conda activate slurm-env python your_script.py
⚠️ 关键注意事项
- 勿跳过 --from-history:conda env export 默认包含构建信息(build hash),跨平台可能失效;--from-history 仅导出 conda install 和 pip install 显式命令,保证重建一致性。
-
检查 datasets 的 num_proc 行为:dataset.map(..., batched=True) 默认启用多进程(num_proc=os.cpu_count())。若集群节点 CPU 核数远高于本地(如 64 核),而内存不足或共享文件系统(如 NFS)性能差,会导致进程创建卡顿。建议显式限制:
mapped_dataset = dataset.map( lambda x: tokenizer(...), batched=True, num_proc=8 # 根据节点内存调整,避免 OOM ) - 验证 tokenizer 路径一致性:确保 /data/home//raw_roberta/Roberta_Tokenizer 下存在 tokenizer_config.json 且 tokenizer_class 字段为 "RobertaTokenizerFast",而非 "BertTokenizer"。若混用,应统一使用 RoBERTa 对应的 tokenizer checkpoint。
通过以上步骤,90% 以上的 Slurm “假死”问题可被根治。核心原则是:HPC 环境必须视为不可信黑盒,一切依赖须显式声明、隔离部署、版本锁定——优雅的容错,始于严苛的确定性。










