从新一代昇腾AI云服务，俯瞰AI算力的云上变局-人工智能-PHP中文网

从新一代昇腾AI云服务，俯瞰AI算力的云上变局

爱谁谁

发布： 2025-07-31 11:34:16

原创

590人浏览过

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

从新一代昇腾ai云服务，俯瞰ai算力的云上变局

在中国，一个AI大模型要完成从训练到推理的全过程，几乎如同经历一场算力的“九九八十一难”。

首先，它必须面对英伟达高端算力芯片被禁售、被降级的现实困境，导致算力获取成本高昂且渠道受限；紧接着，模型参数日益庞大，单张计算卡已无法承载，必须依赖大规模集群算力；而大规模AI集群又常面临故障频发、恢复缓慢的问题，严重拖慢训练进度；到了推理阶段，还需突破分布式推理的技术瓶颈，才能在应用层面建立竞争优势。

这些大模型宛如棋盘上的棋子，算法走得飞快，脚下的算力棋盘却始终依赖他人。即便如此，中国依然诞生了众多令人瞩目的大模型创新成果。但人们不禁思考：如果拥有一个自主可控、稳定强劲的AI算力底座，中国的AI技术又能走得多远？

在HDC 2025大会上，答案浮现。华为常务董事、华为云计算CEO张平安宣布：基于CloudMatrix384超节点的新一代昇腾AI云服务正式全面上线，为大模型提供澎湃动力。

从新一代昇腾AI云服务，俯瞰AI算力的云上变局

这项服务的本质，是对传统AI算力形态的一次重构。它打破了以单卡为核心的算力供给模式，直面中国AI算力自主化的迫切需求，并通过云服务这一最适配大模型推训的方式，实现了算力的高效交付。

384个AI计算单元紧密互联，宛如一片“龙鳞”。从这片鳞甲的光泽中，我们看到的是中国AI算力以技术重塑规则的决心与能力。

让我们沿着“发现问题—技术破局—云服务闭环—行业落地”的逻辑脉络，看看AI算力的重重难关，是如何被一一化解的。

从新一代昇腾AI云服务，俯瞰AI算力的云上变局

自深度学习兴起以来，AI算力作为专项资源被广泛认知，学界与产业界早已预见到中国将在AI算力供需之间面临巨大矛盾。这一矛盾在大模型时代达到了前所未有的高峰。

一方面，中国在算法与应用场景上的创新层出不穷，AI正深度融入社会经济；另一方面，本土AI算力基础设施长期缺失，严重依赖外部供应。这种依赖逐渐演变为发展的结构性短板——就像把自己的棋子放在别人的棋盘上，一旦对方撤盘，我们便无从落子；当棋子越来越多，原有的棋盘也早已不堪承载。

从历史、当下与未来三个维度审视，中国AI算力必须走出一条自主发展的新路径。

从新一代昇腾AI云服务，俯瞰AI算力的云上变局

历史困局：外部封锁下的算力受限

自1996年《瓦森纳协定》签署以来，美国长期主导对华高科技出口管制。进入AI时代，AI算力成为科技博弈的核心战场。近年来，美国不断加码对中国AI芯片的限制，曾占据中国市场95%以上份额的英伟达GPU，频繁遭遇禁售或被迫推出性能缩水的“特供版”。算力变得既昂贵又稀缺，成为制约中国AI发展的关键瓶颈。

现实挑战：大模型爆发带来的算力饥渴

聚焦国内市场，算力供需矛盾愈发尖锐。以DeepSeek为代表的国产大模型崛起，以及AI Agent等新型应用的爆发，都对训练与推理能力提出了更高要求。

从新一代昇腾AI云服务，俯瞰AI算力的云上变局

例如，AI Agent的核心逻辑是“大模型决策+调用工具执行”，这对响应时延极为敏感。要实现大规模商用，必须具备强大的CPU与NPU间高速通信能力。这些底层算力的实现，直接决定了AI应用的成败。

未来焦虑：为AGI时代提前布局

更深远的是，大模型仍在快速进化。未来可能出现参数量达百万亿级别的模型，算力需求或将呈百万倍增长。同时，自动驾驶、元宇宙等新兴领域推动多元融合计算成为主流。我们必须提前构建强大的算力底座，才能支撑起未来无限的AI想象。

要破解这些困局，关键在于：不能再依赖外部供应的单卡算力。唯有将算力资源系统化、集群化整合，用整体优势弥补个体短板，才是中国AI算力的破局之道。

AppStruct

无代码应用开发平台

132

查看详情

尽管技术难度极高，但我们也早已做好准备。华为在网络领域的深厚积累，可突破大规模集群通信瓶颈；昇腾芯片的持续迭代，为自主算力提供支撑；华为云在大规模算力服务与下一代云基础设施上的经验，为超节点的构建奠定了坚实基础。

从新一代昇腾AI云服务，俯瞰AI算力的云上变局

这些能力的融合，使华为得以打破传统冯诺依曼架构，打造出“一切可池化”“一切皆对等”“一切可组合”的CloudMatrix384超节点，并通过云服务将其推向千行百业。

AI算力的多重困境，由此迎来了底层规则的重构可能。

从新一代昇腾AI云服务，俯瞰AI算力的云上变局

要突破单卡算力的局限，就必须走向多卡集群化发展。

集约化计算提升资源利用率，构建更适应大规模训练的超节点，这一思路早有共识。但CloudMatrix384的独特之处在于，它通过计算、存储、网络等多维度协同创新，彻底颠覆传统架构，打造出真正的“最强AI服务器”。

CloudMatrix384将384颗昇腾NPU与192颗鲲鹏CPU通过高速互联总线连接，构成一台384卡的超级AI计算机。中国文化崇尚“合”的智慧，这种理念在CloudMatrix384中得以充分体现。通过集约化设计，它突破了硬件与工艺的限制，结合软硬协同、资源池化与动态调度，显著提升有效算力。数据显示，其算力规模可达300PFlops，相较英伟达NVL72提升67%。它的出现，从底层解决了多个紧迫的算力难题：

如何满足分布式推理需求？

DeepSeek爆火后，MoE（混合专家）模型成为主流。这类模型对分布式推理能力要求极高。CloudMatrix384通过超节点分布式推理引擎，大幅提升单卡计算与通信效率，单卡吞吐量可达2300Tokens/s，较非超节点提升近4倍，支持“一卡一任务”，算力利用率（MFU）提升50%以上。更可实现“一卡一专家”，单个超节点支持384个专家并行推理，极大提升效率。