总结
豆包 AI 助手文章总结

华为推出准万亿参数盘古 Ultra MoE 模型 全流程在昇腾 AI 平台训练

心靈之曲
发布: 2025-06-02 11:30:36
原创
886人浏览过

 华为推出准万亿参数盘古 ultra moe 模型 全流程在昇腾 ai 平台训练

5 月 30 日,华为推出了全新的 AI 模型——盘古 Ultra MoE,该模型的参数量达到了 7180 亿。作为一款接近万亿参数的 MoE ( Mixture of Experts ) 模型,它在整个训练过程中完全基于华为的昇腾 AI 平台完成,标志着华为在超大规模模型训练方面取得了重要进展。

盘古 Ultra MoE 的成功训练离不开盘古团队研发的一系列创新技术。例如,Depth-Scaled Sandwich-Norm ( DSSN ) 稳定架构的引入,显著改善了超大规模模型训练期间出现的梯度异常及范数波动问题。通过在每个子层输出之后添加额外的层归一化,并配合深度缩放的初始化方式,DSSN 架构保障了模型训练的长期稳定性。另外,TinyInit 小初始化方法采用了标准差为 ( 2/ ( d · L ) ) 的初始化策略,从而进一步提升了模型训练的效果。

在训练方法层面,华为团队首次公开了在昇腾 CloudMatrix 384 超节点上实现了大稀疏比 MoE 强化学习 ( RL ) 后训练框架的核心技术。这项技术的突破,让 RL 后训练进入了超节点集群的新纪元,为强化学习在超大规模模型中的实际应用铺平了道路。

基于 5 月初公布的预训练系统加速技术,华为团队仅用不到一个月的时间就完成了新一轮的技术迭代与优化。此次升级涵盖了多个方面:针对昇腾硬件的自适应流水掩盖策略,进一步调整算子执行顺序,减少 Host-Bound,提高 EP 通信掩盖效率;自主研发的自适应管理内存优化策略;数据重新排列以实现 DP 间 Attention 的负载均衡;以及针对昇腾平台的算子优化。这些改进措施的应用,使得万卡集群的预训练 MFU ( 混合精度计算利用率 ) 从 30% 显著提高到了 41%。

以上就是华为推出准万亿参数盘古 Ultra MoE 模型 全流程在昇腾 AI 平台训练的详细内容,更多请关注php中文网其它相关文章!

豆包AI编程
豆包AI编程

智能代码生成与优化,高效提升开发速度与质量!

下载
相关标签:
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
豆包 AI 助手文章总结
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号