https://www.php.cn/link/0d382a5fec7012c843c1bdfb0935c9a6
英伟达研究团队推出了jet-nemotron,这是一个全新的混合架构语言模型系列。该系列采用post neural architecture search (postnas) 方法,在保持预训练全注意力模型中mlp层权重冻结的基础上,仅对注意力模块进行高效结构搜索,成功实现了媲美甚至超越主流全注意力模型的精度表现,同时大幅提升了生成速度。
基于该方法构建的Jet-Nemotron-2B在多项权威基准测试中表现优异,其精度达到或超过Qwen3、Qwen2.5、Gemma3和Llama3.2等模型,生成阶段的吞吐量最高提升达53.6倍,预填充阶段性能提速达6.1倍。在MMLU与MMLU-Pro两项评测中,其准确率也优于当前先进的MoE型全注意力模型DeepSeek-V3-Small(总参数15B)和Moonlight(激活参数2.2B)。
该模型的核心技术亮点之一是JetBlock,一种创新的动态线性注意力机制,具备智能筛选值标记的能力,性能显著优于Mamba2、GLA等早期线性注意力方案。
同时,Jet-Nemotron引入了混合注意力架构策略:保留少量全注意力层以保障复杂推理能力,其余层则替换为高效JetBlock模块,从而在维持模型性能的同时,显著减少内存消耗并提升整体推理吞吐能力。
以上就是英伟达研究团队发布混合架构语言模型 Jet-Nemotron的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号