在CentOS上如何进行PyTorch的分布式训练-CentOS-PHP中文网

在CentOS上如何进行PyTorch的分布式训练

畫卷琴夢

发布： 2025-06-29 08:28:24

原创

915人浏览过

在centos系统上执行pytorch的分布式训练时，请按照以下流程操作：

安装PyTorch：首先确认已安装PyTorch。可以从PyTorch官方网站（https://www.php.cn/link/419e4410da152c74d727270283cb94ce。
配置环境变量：若要利用多块GPU进行分布式训练，需设置特定的环境变量。比如，若有4块GPU，可按如下方式设置：
```
<code> export MASTER_ADDR='localhost'
 export MASTER_PORT='12345'
 export WORLD_SIZE=4</code>
```
登录后复制
MASTER_ADDR 是主节点的IP地址，MASTER_PORT 是选定的端口号，WORLD_SIZE 表示参与训练的GPU总数。

构建分布式训练脚本：PyTorch内置了torch.distributed模块用于分布式训练。需对现有训练脚本做出相应改动使其兼容分布式训练。以下为一简易实例：

<code> import torch
 import torch.distributed as dist
 from torch.nn.parallel import DistributedDataParallel as DDP

 def main():
     # 初始化分布式架构
     dist.init_process_group(backend='nccl', init_method='tcp://localhost:12345', world_size=4, rank=0)

     # 定义模型并迁移至GPU
     model = ... # 构建您的模型
     model.cuda()

     # 利用DistributedDataParallel封装模型
     model = DDP(model, device_ids=[torch.cuda.current_device()])

     # 设置损失函数与优化器
     criterion = torch.nn.CrossEntropyLoss().cuda()
     optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

     # 载入数据
     dataset = ... # 创建数据集
     sampler = torch.utils.data.distributed.DistributedSampler(dataset)
     dataloader = torch.utils.data.DataLoader(dataset, batch_size=..., sampler=sampler)

     # 开始模型训练
     for epoch in range(...):
         sampler.set_epoch(epoch)
         for inputs, targets in dataloader:
             inputs, targets = inputs.cuda(), targets.cuda()
             optimizer.zero_grad()
             outputs = model(inputs)
             loss = criterion(outputs, targets)
             loss.backward()
             optimizer.step()

     # 结束分布式架构
     dist.destroy_process_group()

 if __name__ == "__main__":
     main()</code>

登录后复制

请依据实际情形调整模型、数据集、损失函数、优化器及训练逻辑。

运行分布式训练：可以借助mpirun或torch.distributed.launch来发起分布式训练任务。例如：

行者AI
行者AI绘图创作，唤醒新的灵感，创造更多可能

100

查看详情
```
<code> mpirun -np 4 python your_training_script.py</code>
```
登录后复制
或者采用torch.distributed.launch：
```
<code> python -m torch.distributed.launch --nproc_per_node=4 your_training_script.py</code>
```
登录后复制
其中的-np 4和--nproc_per_node=4指示每个节点所用GPU的数量。
关键点提示：
- 确保各节点间可通过网络互相通信。
- 核实所有节点的PyTorch版本与CUDA版本保持一致。
- 若在多台设备上实施分布式训练，务必把MASTER_ADDR设为主机IP，并保证所有节点能通过此IP相互通信。