昇腾助力中科大团队实现MoE 稀疏大模型并行推理提速超30%

P粉390130307

发布时间：2025-08-21 12:10:01

343人浏览过

来源于php中文网

原创

随着人工智能技术的迅猛进步，大模型的参数规模持续攀升。moe稀疏大模型因其在提升模型容量的同时能保持较低的训练计算开销，成为当前研究的焦点。然而，推理阶段的性能瓶颈仍严重制约其广泛应用。在此背景下，中国科学技术大学人工智能与数据科学学院执行院长张燕咏带领团队，依托中国科学技术大学鲲鹏昇腾科教创新卓越中心的强大算力支持，成功构建了一套基于专家选择分布预测的专家负载均衡与all2all通信优化框架。

该研究聚焦于两大核心挑战——专家负载不均衡以及高昂的计算与通信开销，并通过“三步策略”实现了推理效率的显著提升。为实现更高效的资源分配，团队首先深入探究了MoE模型中token选择专家的规律。通过对相似token在MoE层中专家选择行为的特征提取与聚类分析，成功预测出token对特定专家的路径偏好。

第二步旨在缓解推理过程中专家负载不均的问题。基于对token专家选择偏好的预测结果，团队能够准确评估各专家的访问频率与重要性，进而采取高频专家复制、低频非关键专家替换等策略，实现动态负载均衡。在此过程中，昇腾推理引擎MindIE所提供的性能分析工具发挥了关键作用——其可视化能力有效支持了专家负载的实时监控与访问频次统计，为优化决策提供了可靠的数据支撑。

第三步聚焦于降低分布式环境下的通信延迟。团队依据各计算节点上数据对专家选择的预测结果，提前将专家部署至最常访问的节点，并将需频繁交互的专家尽可能安排在同一计算单元内，从而缩短数据与专家之间的物理距离。结合昇腾384超节点所采用的高速总线互联架构，显著减少了跨节点与跨单元的通信开销。

得益于上述技术突破，项目取得了显著成效。在多种规模与结构的MoE模型测试中，新框架在推理时间、all2all通信耗时、MoE层处理时间及负载不均度等关键指标上，相较现有主流方案整体提升超过30%；在多卡复杂场景下，前三项指标提升达30%，推理时间优化20%。

ima.copilot

腾讯大混元模型推出的智能工作台产品，提供知识库管理、AI问答、智能写作等功能

下载

此次研究成果不仅为开发者利用昇腾平台优化MoE稀疏大模型推理性能提供了宝贵实践路径，也有力推动了该类模型在实际场景中的快速落地。未来，中国科学技术大学鲲鹏昇腾科教创新卓越中心将继续深化产教融合与协同创新，依托昇腾全栈软硬件生态，在前沿AI模型优化领域持续攻关，助力我国自主可控的人工智能发展战略和数字经济高质量发展。

昇腾助力中科大团队实现MoE 稀疏大模型并行推理提速超30%

消息称三星半导体负责人全永铉发布年终内部信，称离赶上内存对手还很远

闪极成为电影《流浪地球 3（上）》赞助商

1 元租个机器人，擎天租上线“1 元闪租”服务

Zara 利用 AI 削减成本，摄影师与化妆师或面临失业

众泰汽车董事长李立忠因个人家庭原因辞职，仅上任两个月

相关标签:

快讯工具 ai 架构分布式 Token 栈人工智能负载均衡

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：铠侠宣布开发出首款 5TB 大容量、64GB/s 高带宽闪存模块原型下一篇：钉钉回应优化多位不主张加班高管：消息不实

作者最新文章

苹果手机突然黑屏但有声音是咋回事

2025-09-16 09:42

iPhone15怎么设置桌面小组件

2025-09-16 10:02

怎样把iphone电话号码转到另一部iphone

2025-09-16 10:09

iPhone提醒旁白声音开启方法

2025-09-16 10:14

引导式访问在iPhone上为何不起作用

2025-09-16 10:25

苹果如何切换到pc端

2025-09-16 10:56

如何设置iphone壁纸

2025-09-16 11:00

ios14自动亮度消失的原因

2025-09-16 11:17

苹果xr如何设置偷看手机动态壁纸

2025-09-16 12:28

Siri特性全面升级了吗？iOS17让Siri为你朗读网页内容

2025-09-16 12:30

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

什么是分布式

分布式是一种计算和数据处理的方式，将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容，供大家免费下载体验。

319

2023.08.11

分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容，供大家免费下载体验。

227

2023.10.07

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6038

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

780

2023.09.14