月之暗面开源高效优化器muon,同等预算下性能翻倍!
月之暗面与DeepSeek再度“撞车”,这次是开源优化器Muon的较量。Muon优化器在计算效率上比AdamW提升了2倍,并已用于训练3B/16B参数的MoE模型Moonlight,刷新了当前的帕累托最优。
Muon的改进关键在于:
这些改进使得Muon无需调整超参数即可直接用于大规模训练。实验表明,Muon在达到与AdamW相当性能的同时,仅需约52%的训练FLOPs。
月之暗面已开源Muon的代码、预训练模型、指令微调以及中间检查点,并发布了相关论文《MUON IS SCALABLE FOR LLM TRAINING》。
Muon的扩展与分布式实现
研究人员发现原始Muon在大模型训练中的性能提升有限。通过添加权重衰减和实现一致的RMS更新,解决了这一问题。 此外,还提出了一种基于ZeRO-1的分布式Muon实现方案,进一步提升了训练效率。 实验结果通过图表详细展示了Muon的优越性能,包括与AdamW的比较以及不同RMS控制方法的对比。
Muon的开源为大规模语言模型训练提供了新的高效方案,值得关注。
以上就是开源赛道太挤了!月之暗面开源新版Muon优化器的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号