首页 > 新闻 > IT新闻 > 正文

​Meta AI 发布 MobileLLM-R1:轻量级边缘推理模型

DDD
发布: 2025-09-16 16:28:01
原创
814人浏览过

​meta ai 发布 mobilellm-r1:轻量级边缘推理模型

近日,Meta AI 推出了名为 MobileLLM-R1 的轻量级边缘推理模型系列,现已在 Hugging Face 平台上线。该系列涵盖从140M到950M参数规模的多种模型,专为高效执行数学、编程及科学推理任务而设计,在低于10亿参数的体量下展现出卓越性能。

其中最大的型号为 MobileLLM-R1-950M,采用了多项架构优化:包含22层 Transformer 结构、24个注意力头以及6组分组 KV 头。其嵌入维度设为1536,隐藏层维度达到6144。

为提升效率,该模型引入了分组查询注意力(GQA)机制,有效降低计算与内存消耗;通过块级权重共享策略进一步压缩参数数量,同时避免显著增加延迟;并采用 SwiGLU 激活函数以增强小模型的表达能力。支持最长4K token 的上下文输入,后训练版本更可扩展至32K上下文长度。

在训练方面,MobileLLM-R1 展现出极高的数据利用效率。整个训练过程使用约4.2万亿 token,仅为 Qwen3-0.6B 所用36万亿 token 的11.7%,却实现了相当甚至更优的准确率表现。此外,模型经过数学、编码和推理相关数据集的监督微调,显著减少了训练所需的资源与成本。

天工大模型
天工大模型

中国首个对标ChatGPT的双千亿级大语言模型

天工大模型115
查看详情 天工大模型

基准测试结果显示,MobileLLM-R1-950M 在多个关键任务中表现突出:在 MATH500 数据集上,其准确率约为 OLMo-1.24B 的5倍,是 SmolLM2-1.7B 的约2倍。在 GSM8K、AIME 和 LiveCodeBench 等复杂推理与编程任务中,其性能与 Qwen3-0.6B 相当或更优,而后者所依赖的训练 token 数量远超前者。

然而,该模型的应用也存在一定局限。由于专注特定领域,其在通用对话、常识理解及创造性生成等任务上的表现不及更大规模的通用模型。此外,MobileLLM-R1 采用 FAIR NC(非商业用途)许可证,限制了其在商业场景中的部署;且较长的上下文支持(32K)会带来更高的 KV 缓存占用和运行时内存需求。

以上就是​Meta AI 发布 MobileLLM-R1:轻量级边缘推理模型的详细内容,更多请关注php中文网其它相关文章!

相关标签:
最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号