在最新发布的论文中,英伟达推出的 jet-nemotron 系列混合架构语言模型在多项基准测试中表现优异,精度上超越或媲美 qwen3、qwen2.5、gemma3 和 llama3.2,同时实现了最高达 53.6 倍的生成吞吐量提升和 6.1 倍的预填充加速。与当前先进的 moe 全注意力模型如 deepseek-v3-small 和 moonlight 相比,jet-nemotron-2b 在 mmlu 和 mmlu-pro 等数学任务上的准确率也更胜一筹。
在 NVIDIA H100 GPU 上,以 64K token 的上下文长度进行测试时,Jet-Nemotron-2B 不仅在 MMLU-Pro 上的准确性超过 Qwen3-1.7B-Base,其生成吞吐量更是提升了 47 倍。而更大规模的 Jet-Nemotron-4B,在参数量高于多数小模型的情况下,依然保持了优于所有参数低于 2B 的全注意力模型的推理速度。
简而言之,Jet-Nemotron 实现了“更快且更准”。
值得注意的是,这一系列高性能模型的背后,其实是两个熟悉的名字:Qwen2.5-1.5B 和 Qwen2.5-3B。
鉴于预训练成本日益高昂,从头设计新架构风险巨大。为此,英伟达采用了 Post Neural Architecture Search(PostNAS)策略——一种基于已完成预训练的全注意力模型,搜索最优注意力模块配置的方法。换言之,他们并未另起炉灶,而是对已有成熟模型进行“精准手术”,结果证明这次“改造”极为成功。
立即进入“豆包AI人工智官网入口”;
立即学习“豆包AI人工智能在线问答入口”;

论文链接:https://www.php.cn/link/bfe671b7d65b8143e5a5e13d2415ec2c
站在巨人的肩膀上前行
Qwen2.5 系列本身已是同级别中的佼佼者,为后续优化提供了高质量的知识基础。PostNAS 的核心目标并非重新学习知识,而是在保留原有语义能力的前提下,对其架构进行高效重构,重点提升推理效率。
不同于主流的从零开始设计模型的方式,PostNAS 从一个已预训练完成的全注意力模型出发,冻结其 MLP 层权重,仅对注意力机制部分进行调整和优化。这种方法大幅降低了训练开销,使快速迭代成为可能。
整个 PostNAS 流程包含四个关键阶段:
虽然全注意力层对于检索等任务至关重要,但它们并非均匀分布最优。传统做法常采用均匀插入少量全注意力层的方式,但这未必是最优解。为此,英伟达提出了一种自动化方法来定位最关键的全注意力层。
该方法通过为原始模型添加可切换的线性注意力路径,构建一个“一次性超网络”。训练过程中,每一步随机激活一条路径形成子网络,并使用特征蒸馏损失进行优化。训练完成后,利用束搜索确定在特定约束下性能最佳的全注意力层布局。搜索目标根据任务定制:MMLU 关注最小化损失值(即最大化−????),数学与检索任务则追求最高准确率。
研究人员依次将每一层设为全注意力,其余使用线性注意力,评估各子网络表现并绘制热力图。分析揭示出三点重要发现:
在确定全注意力层位置后,下一步是挑选最合适的线性注意力模块。团队评估了六种前沿方案:RWKV7、RetNet、Mamba2、GLA、Deltanet 和 Gated DeltaNet。结果显示,RWKV7 训练吞吐量明显偏低,而 Gated DeltaNet 在整体准确率上表现最佳。
这得益于其双重机制:数据相关门控允许模型动态平衡当前 token 与历史状态的关注度;Delta 规则则通过增量更新机制高效维护状态记忆,节省内存开销。
得益于 PostNAS 架构的低成本特性,系统性地比较不同模块在准确性、训练效率和推理速度之间的权衡变得可行。未来一旦出现优于 Gated DeltaNet 的新模块,也能迅速集成替换。
为了进一步增强线性注意力的能力,Jet-Nemotron 引入了全新设计的 JetBlock 模块。
不同于以往依赖固定卷积核的设计,JetBlock 加入了一个动态卷积核生成器。该模块与 Q/K/V 投影共享输入,先经由比例为 8 的降维层提升效率,再通过 SiLU 激活函数处理,最后输出动态生成的卷积核权重。
研究还发现,一旦在值(V)序列上应用动态卷积,查询(Q)和键(K)上的静态卷积即可移除而不影响精度。最终设计中采用此简化方案,使得 JetBlock 在数学推理与检索任务中超越 Gated DeltaNet,同时保持相近的计算效率。
PostNAS 还引入了硬件感知架构搜索技术,用于优化键/值维度、注意力头数等超参数。
尽管参数量常被用作效率指标,但它并不能真实反映实际生成性能。英伟达转而将生成吞吐量作为直接优化目标,通过搜索找到了能在相似吞吐量下容纳更多参数从而获得更高精度的配置。
其核心原理在于:KV 缓存大小是影响长文本生成效率的关键瓶颈。当 KV 缓存容量相同时,即使总参数更多,模型仍能维持相近的解码速度。这是因为解码过程通常受限于内存带宽而非算力。尤其在长上下文场景下,KV 缓存占用远超模型权重,减小其体积可显著降低每步内存访问延迟,并支持更大的 batch size,从而提升整体吞吐。
理论极限接近 56 倍加速
Jet-Nemotron 系列包含两个版本:Jet-Nemotron-2B 和 Jet-Nemotron-4B,分别基于 Qwen2.5-1.5B 和 Qwen2.5-3B 改造而来。
评测结果显示,两者在六个主要领域均达到甚至超过 Qwen3-1.7B-Base 的性能水平,同时拥有更少的全注意力层和更小的 KV 缓存。在生成吞吐方面,Jet-Nemotron-2B 和 -4B 分别比 Qwen3-1.7B-Base 快 47 倍和 21 倍。
具体来看,Jet-Nemotron-2B 在 MMLU(-Pro) 和 BBH 任务中不仅吞吐高出 47 倍、KV 缓存缩小 47 倍,准确率也实现反超。它甚至优于参数更多的 MoE 模型如 DeepSeek-V3-Small(2.2B 激活参数)和 Moonlight(15B 总参数)。扩展至 4B 参数的 Jet-Nemotron-4B,依旧在吞吐上领先 Qwen3-1.7B-Base 达 21 倍。
在数学任务中,Jet-Nemotron-2B 取得平均 49.6% 的准确率,较 Qwen3-1.7B-Base 提升 6.3%,速度提升达 47 倍。相比之下,此前多数线性注意力模型在此类任务上表现不佳。
尽管 Qwen2.5 和 Qwen3 在常识推理方面原本偏弱,Jet-Nemotron-2B 却实现了突破,平均准确率达到 62.0%,全面超越基线。在编程与检索等任务中,两款 Jet-Nemotron 模型也在保持高吞吐的同时展现出更强的整体性能。
英伟达团队进一步量化了吞吐优势。如下图所示,在不同上下文长度下,Jet-Nemotron-2B 与 Qwen3-1.7B-Base 的对比清晰展现了性能跃迁。预填充阶段,短上下文(4K、8K)下初始提速分别为 1.14 倍和 1.15 倍;随着上下文增长,线性注意力优势凸显,在 256K 长度下预填充加速达 6.14 倍。
在解码阶段,Jet-Nemotron-2B 始终大幅领先。由于其仅含 2 个全注意力层(每组 KV 状态对应 2 组),而 Qwen3-1.7B-Base 有 28 层(每组对应 8 组),理论上最大加速比可达 14 × 4 = 56 倍。实验数据显示,在 4K 上下文下实现 15.6 倍加速,256K 下高达 53.6 倍,几乎逼近理论极限。
One more thing
从 Jet-Nemotron 的实践可以看出,在当前火热的小模型竞赛中,真正的竞争力不再局限于参数规模或训练数据量,而是体现在对现有模型的深度优化能力——包括剪枝、重参数化、架构重组等。而注意力机制,只是这场变革的起点。
这种基于成熟开源基座模型进行架构再设计的路径,不仅帮助英伟达规避了天价训练成本,还借助 Qwen 系列已被验证的强大性能保障了效果下限。它的意义不止于榜单排名的提升,更重要的是验证了一条切实可行的技术范式:顶级开源底座 + 创新高效架构 + 低成本后训练搜索 = 新一代高性价比模型。
未来的胜出者,将是那些能把“算法创新”与“工程极致”完美融合的团队。注意力机制的革新只是发令枪响起,真正漫长的优化马拉松,才刚刚起步。
以上就是英伟达发布 Jet-Nemotron 系列小模型,理论最大加速比 56 倍的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号