摩尔线程正式推出开源大模型分布式训练仿真工具 simumax 的 1.1 版本。该版本在全面保留 v1.0 高保真仿真能力的前提下,完成从独立仿真工具向一体化全栈工作流平台的关键跃迁,为大模型训练的仿真验证与性能调优提供端到端系统级支撑。
此次升级围绕三大核心突破展开:面向工程师的图形化配置界面、自动化并行策略探索引擎,以及融合计算与通信建模能力的 System-Config 自动生成流水线。同时,新版本显著强化了对主流训练框架 Megatron-LM 的适配能力,并进一步提升对混合并行(如数据并行+张量并行+专家并行)场景下复杂通信行为的建模 fidelity,使仿真结果更逼近真实集群运行状态。
SimuMax 是一款专为大语言模型(LLM)分布式训练负载打造的轻量级高精度仿真平台,支持从单卡设备至万卡级超大规模集群的全尺度建模。它无需实际运行完整训练流程,即可精准预测显存占用、吞吐量、通信开销等关键指标,助力开发者深度理解训练瓶颈,高效定位性能优化路径。
据官方说明,SimuMax v1.1 在延续原有高精度仿真优势的基础上,通过以下关键能力构建更完备、更智能的仿真工作流:
- 自适应并行策略搜索:集成启发式策略探索模块,可自动遍历多种并行组合(DP/TP/PP/EP)及调度顺序,在多维约束下推荐最优执行方案,大幅降低人工调参门槛;
- 系统级配置生成流水线:新增基于硬件特征与通信拓扑的 System-Config 构建流程,同步建模计算效率(如 kernel 利用率、FLOPs 吞吐)与通信效率(如带宽利用率、延迟敏感度),实现更高保真的系统行为刻画;
- 框架兼容性增强与特性适配:正式支持 Megatron-LM v0.14,重点兼容其新版 MoE Router 引入的显存压缩机制与动态路由逻辑;
- 细粒度带宽争用仿真:针对 EP/TP/DP 多重并行共存时的跨节点网络资源竞争现象,重构通信建模内核,显著提升万卡级集群中带宽瓶颈识别的准确性。
SimuMax v1.1 全新上线交互式可视化配置面板。用户仅需通过拖拽、勾选与参数填写等简易操作,即可完成从单卡微调任务到万卡预训练作业的全流程定义,极大降低使用门槛,让研发人员得以聚焦于并行策略创新与底层性能挖掘,加速大模型训练范式的迭代演进。

源码地址:点击下载










