0

0

昇腾助力中科大团队实现MoE 稀疏大模型并行推理提速超30%

P粉390130307

P粉390130307

发布时间:2025-08-21 12:10:01

|

343人浏览过

|

来源于php中文网

原创

随着人工智能技术的迅猛进步,大模型的参数规模持续攀升。moe稀疏大模型因其在提升模型容量的同时能保持较低的训练计算开销,成为当前研究的焦点。然而,推理阶段的性能瓶颈仍严重制约其广泛应用。在此背景下,中国科学技术大学人工智能与数据科学学院执行院长张燕咏带领团队,依托中国科学技术大学 鲲鹏昇腾科教创新卓越中心的强大算力支持,成功构建了一套基于专家选择分布预测的专家负载均衡与all2all通信优化框架。

该研究聚焦于两大核心挑战——专家负载不均衡以及高昂的计算与通信开销,并通过“三步策略”实现了推理效率的显著提升。为实现更高效的资源分配,团队首先深入探究了MoE模型中token选择专家的规律。通过对相似token在MoE层中专家选择行为的特征提取与聚类分析,成功预测出token对特定专家的路径偏好。

第二步旨在缓解推理过程中专家负载不均的问题。基于对token专家选择偏好的预测结果,团队能够准确评估各专家的访问频率与重要性,进而采取高频专家复制、低频非关键专家替换等策略,实现动态负载均衡。在此过程中,昇腾推理引擎MindIE所提供的性能分析工具发挥了关键作用——其可视化能力有效支持了专家负载的实时监控与访问频次统计,为优化决策提供了可靠的数据支撑。

第三步聚焦于降低分布式环境下的通信延迟。团队依据各计算节点上数据对专家选择的预测结果,提前将专家部署至最常访问的节点,并将需频繁交互的专家尽可能安排在同一计算单元内,从而缩短数据与专家之间的物理距离。结合昇腾384超节点所采用的高速总线互联架构,显著减少了跨节点与跨单元的通信开销。

得益于上述技术突破,项目取得了显著成效。在多种规模与结构的MoE模型测试中,新框架在推理时间、all2all通信耗时、MoE层处理时间及负载不均度等关键指标上,相较现有主流方案整体提升超过30%;在多卡复杂场景下,前三项指标提升达30%,推理时间优化20%。

ima.copilot
ima.copilot

腾讯大混元模型推出的智能工作台产品,提供知识库管理、AI问答、智能写作等功能

下载

此次研究成果不仅为开发者利用昇腾平台优化MoE稀疏大模型推理性能提供了宝贵实践路径,也有力推动了该类模型在实际场景中的快速落地。未来,中国科学技术大学 鲲鹏昇腾科教创新卓越中心将继续深化产教融合与协同创新,依托昇腾全栈软硬件生态,在前沿AI模型优化领域持续攻关,助力我国自主可控的人工智能发展战略和数字经济高质量发展。

昇腾助力中科大团队实现MoE 稀疏大模型并行推理提速超30%

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

319

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

227

2023.10.07

登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6038

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

780

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1044

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1085

2024.03.01

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

366

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

559

2023.08.10

桌面文件位置介绍
桌面文件位置介绍

本专题整合了桌面文件相关教程,阅读专题下面的文章了解更多内容。

0

2025.12.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
CSS3 教程
CSS3 教程

共18课时 | 4.1万人学习

Go 教程
Go 教程

共32课时 | 3.1万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号