0

0

Moonlight-16B-A3B— 月之暗面开源的 MoE 模型

霞舞

霞舞

发布时间:2025-03-20 12:24:15

|

900人浏览过

|

来源于php中文网

原创

Moonlight-16B-A3B是什么

moonlight-16b-a3b 是 moonshot ai 推出的新型 mixture-of-expert (moe) 模型,具有 160 亿总参数和 30 亿激活参数。模型使用了优化后的 muon 优化器进行训练,计算效率是传统 adamw 的两倍。在性能方面,moonlight 在多个基准测试中表现优异,在英语语言理解(mmlu)和代码生成(humaneval)等任务中均超越了其他同类模型。模型的训练数据量达到 5.7 万亿 token,展现了更高的样本效率。

比话降AI
比话降AI

清除AIGC痕迹,AI率降低至15%

下载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Moonlight-16B-A3B— 月之暗面开源的 MoE 模型

Moonlight-16B-A3B的主要功能

  • 高效的语言理解和生成:该模型通过优化后的 Muon 优化器进行训练,能在多种语言任务中表现出色,例如语言理解、文本生成和代码生成。
  • 大规模数据训练:Moonlight-16B-A3B 使用了 5.7 万亿 token 的数据进行训练,支持高效率的分布式训练。
  • 高效优化器与训练效率:模型使用了改进后的 Muon 优化器,相比传统的 AdamW 优化器,计算效率提升约 2 倍。通过优化权重衰减和参数更新比例,Muon 优化器在大规模训练中表现出更高的稳定性和效率。
  • 低计算成本:模型仅需约 52% 的训练 FLOPs 即可达到与 AdamW 训练相当的性能。
  • 低激活参数设计:总参数量为 16B,激活参数仅为 3B,在保持高性能的同时显著降低了计算资源需求。

Moonlight-16B-A3B的技术原理

  • Muon 优化器的改进:Moonlight-16B-A3B 使用了经过优化的 Muon 优化器。Muon 优化器通过矩阵正交化技术(如 Newton-Schulz 迭代)对模型参数进行优化,显著提升了训练效率。与传统的 AdamW 优化器相比,Muon 的样本效率提升了约 2 倍,在大规模训练中表现出更高的稳定性和效率。
  • 权重衰减与更新调整:为了提高 Muon 在大规模模型训练中的表现,开发团队引入权重衰减机制,对每个参数的更新规模进行了调整。使 Muon 能在无需超参数调整的情况下直接应用于大规模模型训练。
  • 分布式实现:Moonlight-16B-A3B 的训练采用了基于 ZeRO-1 的分布式优化技术。减少了内存开销,降低了通信成本,使模型能在大规模分布式环境中高效训练。
  • 模型架构与训练数据:Moonlight-16B-A3B 是一个 16B 参数的 MoE 模型,激活参数为 3B,使用了 5.7 万亿个标记进行训练。在保持高性能的同时,显著降低了计算资源需求。
  • 性能优化:通过优化的 Muon 优化器和高效的分布式训练,Moonlight-16B-A3B 在多个基准测试中表现出色,超越了其他同规模模型。

Moonlight-16B-A3B的项目地址

  • Github仓库:http://github.com/MoonshotAI/Moonlight
  • HuggingFace模型库:http://huggingface.co/moonshotai/Moonlight-16B-A3B
  • 技术论文:http://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

Moonlight-16B-A3B的性能效果

  • 语言理解任务
    • MMLU(Multilingual Language Understanding):Moonlight-16B-A3B 的性能达到了 70.0%,显著优于 LLAMA3-3B(54.75%)和 Qwen2.5-3B(65.6%)。
    • BBH(BoolQ Benchmark):Moonlight 在任务中达到了 65.2%,优于其他同类模型。
    • TriviaQA:Moonlight 的表现为 66.3%,接近或超越了其他模型。
  • 代码生成任务
    • HumanEval:Moonlight 在代码生成任务中达到了 48.1% 的性能,优于 LLAMA3-3B(28.0%)和 Qwen2.5-3B(42.1%)。
    • MBPP(Mini-Benchmark for Program Synthesis):Moonlight 的性能为 63.8%,显著优于其他模型。
  • 数学推理任务
    • GSM8K:Moonlight 在该任务中的表现为 77.4%,接近 Qwen2.5-3B 的最佳表现(79.1%)。
    • MATH:Moonlight 的性能为 45.3%,优于其他同类模型。
    • CMath:Moonlight 达到了 81.1% 的性能,优于 Qwen2.5-3B(80.0%)。
  • 中文任务
    • C-Eval:Moonlight 的性能为 77.2%,优于 Qwen2.5-3B(75.0%)。
    • CMMLU:Moonlight 的表现为 78.2%,优于其他同类模型。
  • 计算效率
    • 训练效率:Moonlight 使用的 Muon 优化器在计算效率上是 AdamW 的 2 倍,仅需约 52% 的训练 FLOPs 即可达到与 AdamW 相当的性能。
    • 内存和通信效率:通过改进的分布式实现,Moonlight 在大规模训练中表现出更高的内存和通信效率。
Benchmark (Metric) Llama3.2-3B Qwen2.5-3B DSV2-Lite Moonlight
Activated Param† 2.81B 2.77B 2.24B 2.24B
Total Params† 2.81B 2.77B 15.29B 15.29B
Training Tokens 9T 18T 5.7T 5.7T
Optimizer AdamW * AdamW Muon
English MMLU 54.75 65.6 58.3 70.0
MMLU-pro 25.0 34.6 25.5 42.4
BBH 46.8 56.3 44.1 65.2
TriviaQA‡ 59.6 51.1 65.1 66.3
Code HumanEval 28.0 42.1 29.9 48.1
MBPP 48.7 57.1 43.2 63.8
Math GSM8K 34.0 79.1 41.1 77.4
MATH 8.5 42.6 17.1 45.3
CMath 80.0 58.4 81.1
Chinese C-Eval 75.0 60.3 77.2
CMMLU 75.0 64.3 78.2

Moonlight-16B-A3B的应用场景

  • 教育和研究:在学术研究中,Moonlight 可以帮助研究人员快速理解和分析大量文献。
  • 软件开发:开发者可以用 Moonlight 自动生成代码片段,提高开发效率。
  • 研究和工程:研究人员和工程师可以用 Moonlight 解决实际问题中的数学难题。
  • 中文内容创作:在内容创作领域,Moonlight 可以帮助创作者生成高质量的中文内容。
  • 大规模模型训练:在需要大规模模型训练的场景中,Moonlight 可以显著降低计算资源需求,提高训练效率。

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

319

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

229

2023.10.07

登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6049

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

784

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1052

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1097

2024.03.01

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

280

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

387

2023.11.14

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

146

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 2.4万人学习

Git版本控制工具
Git版本控制工具

共8课时 | 1.5万人学习

Git中文开发手册
Git中文开发手册

共0课时 | 0人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号