随着人工智能技术迅猛进步,大模型的参数规模持续攀升。moe(mixture of experts)稀疏大模型因其能够在扩展模型容量的同时保持较低的训练计算开销,成为当前研究的焦点。然而,推理阶段的性能瓶颈仍严重制约其广泛应用。在此背景下,中国科学技术大学人工智能与数据科学学院执行院长张燕咏带领团队,依托中国科学技术大学鲲鹏昇腾科教创新卓越中心提供的强大算力支持,成功构建了一套基于专家选择分布预测的专家负载均衡与all2all通信优化框架。
该研究聚焦于两大核心挑战——专家负载不均与高昂的计算通信成本,并通过“三步走”策略有效提升了推理效率。为实现更高效的资源分配,团队首先深入挖掘专家选择的内在规律,分析相似token在MoE层中选择专家的行为特征,并对其进行聚类归纳,成功预测出token对特定专家的路径偏好。
第二步致力于缓解推理过程中的专家负载失衡问题。基于对token专家选择偏好的预测结果,团队精确评估各专家的访问频率与重要性,采用复制高访问频率专家、替换低重要性专家的方式,动态调整专家分布,从而实现负载均衡。其中,昇腾推理引擎MindIE所提供的性能分析工具发挥了关键作用,其可视化能力支持实时监控专家负载状态、统计访问热度,为优化决策提供了可靠的数据支撑。
第三步聚焦于降低分布式环境下的通信延迟。团队根据各计算节点上数据对专家选择的预测结果,提前将专家部署至最常被访问的节点,并将需频繁交互的专家集中部署在同一计算单元内,使数据与所需专家在物理位置上更加贴近。结合昇腾384超节点所采用的高速总线互联技术,显著减少了跨节点与跨单元之间的通信开销。
在一系列关键技术突破的推动下,该项目取得了显著成效。在多种尺寸与结构的MoE模型测试中,新框架相较现有主流方案,在推理时间、all2all通信时间、MoE层处理时间以及负载不均程度等指标上均实现超过30%的性能提升;在多卡复杂场景下,前三项指标提升达30%,推理时间优化20%。
这一研究成果为开发者利用昇腾技术优化MoE稀疏大模型的推理性能提供了宝贵范例,有助于加速该类模型在实际场景中的落地应用。未来,中国科学技术大学鲲鹏昇腾科教创新卓越中心将继续深化产学研融合,依托昇腾软硬件生态,在前沿AI模型优化方向持续探索,为我国自主可控的人工智能发展战略和数字经济建设注入新动能。

以上就是昇腾助力中科大团队实现MoE稀疏大模型并行推理提速超30%的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号