讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

首页 > 新闻 > 硬件新闻 > 正文

摩尔线程发布大模型训练仿真工具SimuMax v1.0：显存误差仅1％

霞舞

发布： 2025-09-11 19:57:01

原创

538人浏览过

9月11日，摩尔线程正式推出并开源其大模型分布式训练仿真工具simumax v1.0，在显存占用与性能仿真精度方面实现重大突破，同时新增多项核心功能，显著提升对各类模型的兼容性与使用灵活性。

SimuMax是一款专为大语言模型（LLM）分布式训练负载打造的仿真工具，能够为从单张显卡到上万张GPU集群的场景提供高效模拟支持。

该工具无需实际完成整个训练流程，即可高精度预测训练过程中的显存消耗和性能表现，帮助开发者提前评估训练效率，优化资源配置与计算策略。

依托自研的静态分析架构，摩尔线程通过融合成本模型、内存模型以及屋顶模型（Roofline Model），构建出高度精准的训练过程仿真系统。

摩尔线程发布大模型训练仿真工具SimuMax v1.0：显存误差仅1％

SimuMax全面支持多种主流分布式并行方式及优化技术，适用于以下典型应用场景：

1、并行策略支持：

数据并行（DP）、张量并行（TP）、序列并行（SP）、流水线并行（PP）、专家并行（EP）

2、优化技术覆盖：

ZeRO-1、完整重计算、选择性重计算、融合内核等

3、目标用户群体：

希望探索最优训练配置以提升效率的研究人员与工程师；

从事AI框架或大模型算法开发的技术团队，可用于调试与性能优化；

芯片设计厂商，用于硬件性能预估与架构迭代参考。

本次发布的SimuMax 1.0版本最突出的升级在于仿真准确性的大幅提升，为用户提供更可信的分析依据。

针对Dense模型和MoE（混合专家）结构，显存使用预测误差稳定控制在1%以内。

实测结果显示，在多种主流GPU平台上，当前最佳性能预测误差持续低于4%。

巧文书

巧文书

巧文书是一款AI写标书、AI写方案的产品。通过自研的先进AI大模型，精准解析招标文件，智能生成投标内容。

巧文书

281

巧文书

摩尔线程发布大模型训练仿真工具SimuMax v1.0：显存误差仅1％

此外，SimuMax 1.0还引入了一系列关键新特性，适配更复杂的模型结构与高效训练需求：

MLA架构支持：

新增对MLA（Multi-Head Latent Attention）模型结构的支持；

增强流水线并行（PP）能力：

支持对模型首层与末层的细粒度划分控制，优化流水线阶段间的负载均衡；

提升MoE灵活性：

在混合专家模型中允许自定义Dense层配置，增强模型设计自由度；

Megatron生态兼容：

提供便捷的模型迁移路径，可快速导入并分析基于Megatron框架构建的模型，强化与现有开发生态的协同能力；

重计算策略精细化：

实现更细粒度的选择性重计算机制，便于在内存节省与计算开销之间进行精确权衡；

全面效率评估功能：

新增对不同张量形状与内存布局下计算效率、资源利用率的深度分析模块。

以上就是摩尔线程发布大模型训练仿真工具SimuMax v1.0：显存误差仅1％的详细内容，更多请关注php中文网其它相关文章！

相关标签：

大模型摩尔线程计算机显卡工具 ai 架构分布式线程算法性能优化负载均衡

大家都在看：

摩尔线程新一代MUSA架构“花港”发布：全新指令集！能效提升10倍寅谱计算携手AMD重磅发布Infplane Mini AI工作站：Hilbert 黄仁勋传记作者为NVIDIA担忧：谷歌是最大敌人！零刻ME Pro双盘位NAS首发1849元起：DIY抽屉式设计可升级主板 Intel 288MB大缓存、52核反击AMD！Nova Lake带来四款bLLC型号

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：金身靠镀硬件靠酷酷炫影驰机箱一览下一篇：鸿蒙版滴滴出行新增行程分享、充电导航等功能，智慧出行再进阶

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

丁香医考app题目联系入口

2025-12-21 10:48:07
百度高考志愿填报系统靠谱吗

2025-12-21 10:49:02
安全教育平台如何添加第二个账号

2025-12-21 10:50:03
《灵兽大冒险》宠物选择推荐

2025-12-21 10:51:23
卡普空小萝莉特典化身武士or忍者！导演解释选取缘由

2025-12-21 11:03:08
合作生存冒险游戏新作《金河计划》下月抢先体验

2025-12-21 11:27:08
3A游戏性能提升15倍！摩尔线程庐山芯片发布

2025-12-21 11:58:02
尚未问世但两年拿五个奖！《GTA6》太离谱了

2025-12-21 12:37:02
晨报|暴雪承诺每年都有新产品小岛秀夫谈新作题材

2025-12-21 13:01:02
国产游戏《人窟日记》还原鲁迅祖居！你发现了吗？

2025-12-21 13:37:02

最新问题

AMD官方首次公布Zen6设计！首发2nm、全新计算内核 12月21日消息，AMD近日官方公布了第一份关于Zen6架构设计的文档《AMDFamily1AhModel50h-57h处理器性能监控计数器》，通过性能监视接口了，披露了Zen6架构设计的不少细节。当然，这次讲的是EPYC数据中心处理器的Zen6，而不是消费级锐龙，但底层逻辑是相通的。在此之前，我们只知道EPYCZen6是首个采用台积电2nm工艺的高性能处理器，最多256个核心。最新文档支出，Zen6架构并不是Zen4/5的渐进式小幅度升级，而是经过了全面翻新，专门为高吞吐量设计的更宽架构，拥有

2025-12-21 14:19:01

233

3A游戏性能提升15倍！摩尔线程庐山芯片发布在今日举办的摩尔线程2025MUSA开发者大会上，除了“花港”新架构和华山芯片之外，摩尔线程还带来了图形芯片——庐山。庐山是基于花港架构打造的高性能图形渲染芯片，将实现3A游戏渲染15倍的提升，光线追踪性能提升50倍，原子访存性能提升了8倍，显存容量提升了4倍。AI渲染性能提升了64倍，几何处理性能提升了16倍，纹理填充性能提升了4倍。除支持游戏体验外，还支持所有CAD、CAE等图形设计渲染。从官方介绍来看，未来将会发布面向普通消费者的全新显卡，实际体验将远超MTTS80显卡。“花港”采用全新一

2025-12-21 11:58:02

248

内存价格降不下来了 27年NV顶级GPU平台就要365TB HBM4e内存 12月20日消息，最近内存价格大涨的消息让PC玩家很不爽，现货价涨了两三倍，16GB内存条已经1000+起步了，再加上SSD、显卡甚至CPU的涨价，现在装机成本大涨。大家最关心的问题就是内存价格什么时候降下来？此前业界的预期是2026年下半年，但是随着上游厂商释放的消息越来越悲观，最新预期是缺货涨价到2027年。然而27年就能降下来了吗？并不是，实际上大家想错了，TechInsights分析师JamesSanders给出的看法直接浇了一盆凉水。根据以前的周期预测，内存价格应该在今年增长速度放缓，

2025-12-21 11:48:07

286

第四家国产GPU公司天数智芯冲刺上市：国内首发7nm显卡 12月20日消息，最近两周国产GPU公司密集上市，此前摩尔线程、沐曦先后登陆A股，市值一度冲到了3000-4000亿以上，比上市价涨6-7倍还多。第三家冲刺上市的公司是壁仞科技，前几年发布过号称超越NVIDIAA100显卡的那家公司，他们没有选择A股，前两天在港股递交了招股书。同样选择在港股上市的还有天数智芯，日前也通过了股交所的聆讯，有望跟壁仞科技争夺港股中的国产GPU第一股。根据招股书，天数智芯成立于2015年，可以说比其他几家GPU公司都要早一些，之前主要研发算力加速软硬件产品，后转向研究

2025-12-21 11:47:23

412

国产显卡性能飞跃摩尔线程S5000优化后AI速度已达NVIDIA H100的60% 12月20日消息，前不久国产GPU初创企业摩尔线程上市，市值一度达到了4000多亿元，今天该公司又发布了新一代GPU架构，AI及游戏性能大涨，其中游戏性能飙升了15倍。即便是当前一代的显卡中，摩尔线程也在不断联合伙伴优化，硅基流动今天宣布在S5000显卡上实现了国产GPU推理性能的飞跃。根据他们的实测数据，经过系统级工程优化与FP8精度加速，摩尔线程MTTS5000单卡Prefill吞吐达到4000tokens/s以上，Decode吞吐超过1000tokens/s。这是什么概念，

2025-12-21 11:47:12

426

架构全新研发 AMD确认Zen6专注高性能：2nm下70%可期 12月20日消息，Intel明年底发布的NovaLake处理器不仅上18A工艺，还有多达52核及288MB缓存，性能提升很大，不免让人对AMD下一代Zen6有些担心。不出意外的话，1月初的CES演讲上AMD会正式宣布Zen6家族产品，日前AMD在在论文中也透露了Zen6架构的一些信息，这一代将会是专注高性能及吞吐量的设计。Zen6不是当前Zen4及Zen5架构的改进版，而是全新开发的架构，比前两者相比能效也有所提升。它将拥有256个CPU核心，台积电2nm工艺，内存系统上采用了8通道插槽，2个硬

2025-12-21 11:14:02

450

《燕云十六声》出海杀疯了！凭啥能在海外爆火《燕云十六声》国际服正式启航，东方武侠风潮席卷全球！索泰RTX50系列显卡携手DLSS4技术强势赋能，帧率飙升至8倍，助少东家们纵情驰骋快意江湖。去年，《黑神话：悟空》以磅礴之势将《西游记》这一中华瑰宝推向世界舞台；而今，《燕云十六声》则以沉浸式武侠体验，向全球玩家揭开了中国人精神深处的另一重天地——“江湖”。《燕云十六声》国服于2024年12月27日开启公测，历经一年持续迭代与深度运营，国内注册用户已突破4000万大关，市场反响热烈。11月15日，国际服同步登陆Steam、PS5等主流平台，首

2025-12-20 19:43:01

868

中国电信：家里网速不对劲可能是这些原因造成的 12月20日最新消息，罗永浩近期在社交平台公开吐槽上海电信宽带实际速率缩水问题，迅速引发广泛关注，不少用户纷纷留言表示自家网络也存在类似困扰。例如，WiFi时常卡顿、实测网速远低于签约带宽，但检查后却发现宽带线路、路由器及网线均显示“正常”。中国电信官方公众号今日发布科普文章指出：导致此类现象的原因复杂多样，并非单纯由宽带本身造成。常见影响因素包括房屋结构布局、室内面积大小、承重墙屏蔽效应、周边电磁干扰、路由器摆放位置、用户自购WiFi设备的规格标准，以及终端设备（如手机、电脑）性能等。如何正确

2025-12-20 17:19:02

739

首发“花港”新架构！摩尔线程华山GPU芯片发布：部分性能超越英伟达Blackwell 12月20日，摩尔线程正式推出全新华山GPU芯片，首发搭载自研“花港”架构。该芯片面向AI训练与推理一体化、超智融合应用场景，并同步发布超十万卡规模AI工厂技术及新一代高性能张量计算系统。华山GPU基于“花港”架构深度优化，专为AI训推融合场景设计，在系统级支撑能力上集成超十万卡级AI工厂技术。新一代Scale-up互联系统：集成MTLink4.0及多类型以太网协议，芯片间互联带宽高达134.5Gb/s，可扩展至1024颗GPU，兼容多种Scale-up拓扑结构，并支持SHARP通信加速技术；R

2025-12-20 14:57:12

549

格创东智12吋GMES系统：筑牢智造底座，领航12吋晶圆厂数字化新征程（下）针对12英寸晶圆厂的发展动向及传统系统长期存在的瓶颈，格创东智正式发布全新一代12吋GMES系统，全面赋能12吋晶圆厂完成管理跃升与运营效能突破。上篇已深入剖析系统在端到端业务流程中的能力覆盖，本篇将重点围绕系统架构先进性、工艺级精细化管控能力以及数据驱动的智能化水平，深度解析其差异化核心价值。专为12吋Fab打造的数字基座：高韧性、高稳定性，保障先进制程7×24连续运转面对12吋晶圆厂设备规模超数千台、日均并发操作逾万次、跨区域多基地协同等复杂运行场景，格创东智GMES系统采用经过产线验证的微

2025-12-20 14:57:01

794

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部