微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 科技周边 > 人工智能 > 正文

开源赛道太挤了！月之暗面开源新版Muon优化器

心靈之曲

发布： 2025-02-24 16:48:01

原创

990人浏览过

月之暗面开源高效优化器muon，同等预算下性能翻倍！

月之暗面与DeepSeek再度“撞车”，这次是开源优化器Muon的较量。Muon优化器在计算效率上比AdamW提升了2倍，并已用于训练3B/16B参数的MoE模型Moonlight，刷新了当前的帕累托最优。

Muon的改进关键在于：

添加权重衰减: 有效解决大模型训练中权重过大问题。
一致的RMS更新: 确保不同形状矩阵更新的一致性，避免性能损失。

这些改进使得Muon无需调整超参数即可直接用于大规模训练。实验表明，Muon在达到与AdamW相当性能的同时，仅需约52%的训练FLOPs。

月之暗面已开源Muon的代码、预训练模型、指令微调以及中间检查点，并发布了相关论文《MUON IS SCALABLE FOR LLM TRAINING》。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

vizcom.ai

vizcom.ai

AI草图渲染工具，快速将手绘草图渲染成精美的图像

vizcom.ai

139

vizcom.ai

论文地址：https://www.php.cn/link/98b1e16f65a1500023372d2b362c0991
代码地址：https://www.php.cn/link/776af9671dbfa3ac15c6e0711001bdea
模型地址：https://www.php.cn/link/28dcee36ddc3665d679c5e8372568a31

Muon的扩展与分布式实现

研究人员发现原始Muon在大模型训练中的性能提升有限。通过添加权重衰减和实现一致的RMS更新，解决了这一问题。此外，还提出了一种基于ZeRO-1的分布式Muon实现方案，进一步提升了训练效率。实验结果通过图表详细展示了Muon的优越性能，包括与AdamW的比较以及不同RMS控制方法的对比。

Muon的开源为大规模语言模型训练提供了新的高效方案，值得关注。

以上就是开源赛道太挤了！月之暗面开源新版Muon优化器的详细内容，更多请关注php中文网其它相关文章！

相关标签：

git ai deepseek 分布式 for 并发 github https

大家都在看：

Midjourney怎么画室内设计图 Midjourney建筑与空间设计提示词【教程】 deepseek怎么在移动端高效使用_移动端使用deepseek指南【指南】 deepseek怎样针对教育场景优化回答_教育场景适配方法【方案】抖音AI怎样根据热点自动生成蹭流脚本_抖音AI热点生成蹭流脚本技巧【技巧】 Grok的回答不满意怎么办如何引导Grok给出更好答案【技巧】

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：【焦点】韩国半导体领域基础力量均落后于中国；下一篇：30款紧凑型SUV真实油耗排名出炉：国产车最高排第七

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

PHP图像压缩与直接下载：解决“格式不受支持”问题

2025-11-25 12:05:55
不止首发骁龙8 Gen5！李杰开直播爆料一加Ace 6T

2025-11-25 12:11:47
在Laravel中间件中高效获取路由的最后一个参数

2025-11-25 12:12:18
Flexmonster工具栏实时更新：动态管理菜单项

2025-11-25 12:22:02
Spring Boot中处理表单数据：GET与POST请求的协同与最佳实践

2025-11-25 12:24:05
国外大神新进展！攻破《真女神转生3 NOCTURNE》D加密

2025-11-25 12:28:30
Go语言App Engine任务队列：如何创建和添加任务

2025-11-25 12:44:02
Gson反序列化陷阱：为何静态字段无法正确赋值及解决方案

2025-11-25 12:50:02
《生化危机9》制作人：要让玩家们感受到极度恐怖

2025-11-25 12:52:56
Streamlit中Markdown文本转换为可下载PDF报告的教程

2025-11-25 12:59:19

最新问题

Gemini自定义指令怎么设置 Gemini个性化设置与使用方法【教程】首先开启Gemini个性化设置并启用自定义指令，通过设定通用与情境指令规范回复语言和格式，如“始终用简体中文”或“工作邮件需正式”，再于设置中编辑、删除或排序指令以优化使用习惯，最后同步至云端确保多设备间配置一致。

2025-11-28 10:14:02

462

Grok怎么停止生成回答 Grok中断输出操作方法【教程】可通过界面按钮、快捷键、关闭连接或设置参数中断Grok生成。1、点击输入框附近的停止图标暂停输出；2、终端中按Ctrl+C发送SIGINT信号终止进程；3、在开发者工具中关闭SSE或WebSocket连接；4、调用API时设置max_tokens限制长度，实现自动截断。

2025-11-28 09:25:02

663

deepseek怎么防止生成重复内容_避免重复输出方法【避坑】调整温度参数至0.8~1.0、启用重复惩罚（1.2~1.5）、控制生成长度（128~256）、使用Top-k与Top-p采样，并在提示中加入避免重复指令，可有效减少DeepSeek模型的重复输出。

2025-11-28 08:17:59

524

抖音AI如何用文字描述生成虚拟主播_抖音AI文字生成虚拟主播攻略【攻略】答案：通过AI平台文字描述生成虚拟主播形象，结合脚本与语音合成技术制作视频，并添加动态场景后发布至抖音。具体步骤包括：1、登录支持AI数字人的平台，使用“文本生成形象”功能输入外貌特征创建角色；2、利用智能脚本生成功能生成并优化播报内容，绑定至数字人并选择音色进行口型同步合成；3、为视频添加动态背景并调整图层位置，通过实景抠像或推流直接发布到抖音。

2025-11-27 22:21:06

891

deepseek能否根据情绪调整语气风格_情绪化语气调节步骤【设置】开启情绪感知并设置语气模板，通过自定义情绪映射绑定语言风格，手动标注情绪标签以精准匹配回应，再调节语气强度滑块控制情感浓度，实现个性化情感交互。

2025-11-27 22:20:50

483

DeepSeek怎么进行多语言翻译 DeepSeek专业翻译功能使用教程【方法】 DeepSeek提供高效多语言翻译功能，支持网页端实时翻译、API批量处理及提示词优化。首先可通过官网对话界面输入文本并指定目标语言完成即时翻译；其次开发者可调用API实现自动化流程，适用于大量文档处理；最后结合结构化提示词工程，可提升技术或法律等专业领域翻译的准确性与一致性。

2025-11-27 22:20:02

875

deepseek怎样识别并过滤敏感内容_敏感信息过滤设置步骤【设置】需配置DeepSeek敏感内容过滤机制以确保合规，首先开启内容安全监测功能并启用实时扫描；接着在控制台自定义敏感词库，添加特定违规词汇并分类管理；随后设置过滤响应策略，定义拦截、替换或提示等处理方式；最后启用上下文感知检测模型，提升对隐晦表达和变体拼写的识别精度。

2025-11-27 22:20:02

338

Grok怎么切换常规模式 Grok标准模式与趣味模式切换方法【详解】 Grok提供RegularMode与FunMode两种回答风格，用户可通过网页版模型选择器或移动端长按输入框手动切换；默认的Auto模式会根据问题内容智能判断回复风格，科学类问题偏向严谨，娱乐类问题偏向幽默，若不符合预期可手动调整。

2025-11-27 22:19:35

958

deepseek怎样通过关键词整合多轮对话重点_通过关键词整合deepseek多轮对话重点教程【教程】通过关键词提取与整合可有效追踪多轮对话核心内容：一、用Jieba等工具结合TF-IDF或TextRank算法提取高频词；二、手动标注关键词并分类归档，构建对话脉络；三、采用滑动窗口动态更新关键词集，捕捉话题演变；四、利用Sentence-BERT向量相似度匹配强化关键词关联，绘制知识网络图以明晰逻辑路径。

2025-11-27 22:19:02

174

豆包AI怎样调整翻译模式保留原文语境_调整豆包AI翻译模式保留原文语境教程【教程】启用上下文感知功能可提升译文语境还原度，需登录豆包AI官网进入翻译界面，点击高级设置并勾选上下文理解，将范围调至段落级；随后在模式选择中匹配相应情境模板如文学创作或商务沟通，对修辞内容启用修辞保留模式；接着通过新建配置文件，在术语映射表中添加专有名词及期望译法，并在语气参数中设定正式程度、情感强度与句式复杂度；最后利用人工校对优化机制，编辑结果并提交修改建议，系统将记录调整用于后续优化，多次校正可触发个性化模型微调以持续提升翻译准确性。

2025-11-27 22:17:02

119

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部