Python快速掌握深度学习中多线程处理技巧【教程】-Python教程-PHP中文网

Python快速掌握深度学习中多线程处理技巧【教程】

舞夢輝影

发布： 2025-12-23 22:53:02

原创

758人浏览过

Python多线程在深度学习中主要用于I/O密集型任务（如数据加载、预处理），而非CPU密集型训练；PyTorch DataLoader（num_workers>0）是首选，可提升GPU利用率；自定义多线程仅适用于实时数据流或异步操作，需规避CUDA上下文和内存问题。

python快速掌握深度学习中多线程处理技巧【教程】

Python中多线程在深度学习里其实用得不多——因为GIL（全局解释器锁）会让CPU密集型任务（比如模型训练、矩阵运算）几乎无法通过多线程加速。真正该用多线程的地方，是数据加载、文件读取、预处理等I/O密集型环节。

什么时候该用多线程？

深度学习流程中，GPU训练时经常“等数据”：CPU从磁盘读图、解码、增强、归一化……这些操作不占GPU，但拖慢整体吞吐。这时候用多线程提前准备下一批数据，能显著提升GPU利用率。

读取大量图片/音频/文本文件
做图像resize、color jitter、随机裁剪等CPU操作
从数据库或网络接口批量拉取样本（如自定义Dataset）
训练中同时保存日志、验证、备份模型（非核心训练流）

PyTorch DataLoader 是最常用也最安全的选择

别自己手写 threading —— PyTorch 的 DataLoader 内置了多进程（num_workers > 0）和线程协同机制，对I/O瓶颈优化极好。虽然叫“多进程”，但它底层会配合线程调度I/O任务，且规避了GIL影响。

关键参数建议：

立即学习“Python免费学习笔记（深入）”；

num_workers=4 到 8（根据CPU核心数调整，太多反而因上下文切换变慢）
pin_memory=True：把tensor锁页内存，加快GPU传输（尤其配合CUDA）
prefetch_factor=2（PyTorch ≥1.7）：每个worker预取多少batch，减少空闲等待

示例：

Blogcast™

BlogcastTM是一个文本转语音的工具，允许用户创建播客、视频、电子学习课程的音频和音频书籍，而无需录制。

查看详情

train_loader = DataLoader(dataset, batch_size=32, shuffle=True,
num_workers=4, pin_memory=True, prefetch_factor=2)

自己写多线程？只在特殊场景下考虑

比如你有一个实时数据源（摄像头流、传感器）、要边采样边训练，或者需要异步触发评估/上传。这时可用 threading.Thread 或 concurrent.futures.ThreadPoolExecutor，但注意：

避免在线程里调用 torch.cuda.*（CUDA上下文不跨线程安全）
用 queue.Queue 做线程间数据传递，比全局变量+锁更可靠
别让线程长期占用Python对象（如未释放的PIL Image），容易引发内存堆积

简单例子（异步保存检查点）：

from concurrent.futures import ThreadPoolExecutor
executor = ThreadPoolExecutor(max_workers=1)

def save_model_async(model, path):
torch.save(model.state_dict(), path)

# 训练循环中触发
if epoch % 10 == 0:
executor.submit(save_model_async, model, f"ckpt_{epoch}.pth")