盘古大模型 5.5— 华为推出的新一代AI大模型

心靈之曲

发布时间：2025-06-22 11:50:01

1177人浏览过

来源于php中文网

原创

盘古大模型5.5是华为在hdc 2025开发者大会上推出的新一代人工智能大模型，主打“不作诗，只做事”的理念，专注于解决实际产业问题，助力千行百业智能化升级。该模型涵盖五大基础模型，分别面向自然语言处理（nlp）、多模态、预测、科学计算和计算机视觉（cv）领域。

盘古Ultra MoE是一个拥有7180亿参数的深度思考模型，基于昇腾全栈软硬件协同打造，具备高效长序列处理、低幻觉、深度研究等核心能力。盘古Pro MoE则是72B A16B的模型，在智能体任务上表现优异，可与6710亿参数的DeepSeek-R1相媲美。盘古大模型5.5引入了自适应快慢思考合一技术，提升推理效率，并通过多模态世界模型支持智能驾驶和具身智能机器人训练。

盘古大模型

华为云推出的一系列高性能人工智能大模型

下载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
盘古大模型5.5的主要功能

自然语言处理（NLP）
- 高效长序列处理：采用Adaptive SWA和ESA技术，轻松应对100万token长度的上下文。
- 低幻觉：通过知识边界判定和结构化思考验证等创新方案，提高模型推理准确度。
- 快慢思考融合：自适应快慢思考合一技术可根据问题难易自动切换模式，简单问题快速回复，复杂问题深度分析，推理效率提升8倍。
- 深度研究能力：盘古DeepDiver借助长链难题合成和渐进式奖励机制，在网页搜索、常识性问答等方面表现出色，可在5分钟内完成超过10跳的复杂问答，并生成万字以上专业调研报告。
多模态
- 世界模型：为智能驾驶、具身智能机器人训练构建数字物理空间，实现持续优化迭代。例如在智能驾驶领域，可生成大量训练数据，无需依赖高成本路采。
预测
- triplet transformer架构：将不同行业的数据进行统一的三元组编码和预训练，提升预测精度和跨行业、跨场景的泛化性。
科学计算
- AI集合预报：如深圳气象局基于盘古大模型升级的“智霁”大模型，首次实现AI集合预报，更直观反映天气系统演变可能性。
计算机视觉（CV）
- 300亿参数视觉大模型：支持多维度泛视觉感知、分析和决策，构建工业场景稀缺的泛视觉故障样本库，提升业务识别种类与精度。

盘古大模型5.5的模型介绍

盘古 Ultra MoE
- 超大规模与稀疏激活：拥有7180亿参数，采用256个路由专家，每个token激活8个专家，激活量为39亿，具有超大规模和高稀疏比特性。
- 先进架构设计：引入MLA注意力机制，压缩KV Cache空间，缓解内存带宽瓶颈；采用MTP多头扩展，实现多Token投机推理，加速推理过程。
- 稳定训练技术：提出DSSN稳定架构和TinyInit小初始化方法，解决超大规模MoE模型训练稳定性问题，实现超过18TB数据的长期稳定训练。
- 高效负载优化：采用EP group loss负载优化方法，确保专家间负载均衡，提升专家领域特化能力。
- 训练策略优化：使用Dropless训练策略，避免Drop&Pad训推不一致问题，提升数据效率。结合GRPO算法优化训练，增强推理性能。
盘古 Pro MoE
- 分组混合专家架构：提出MoGE模型，在专家选择阶段对专家分组并约束token在每组内激活等量专家，实现负载均衡，显著提升昇腾平台部署效率。
- 高效推理性能：在昇腾300I Duo平台上，单卡吞吐量可达201 tokens/s，通过MTP解码和多token优化可提升至321 tokens/s。在昇腾800I A2平台上，低并发响应毫秒级，高并发条件下单卡吞吐量达1148 tokens/s，优化后可达1528 tokens/s。
- 卓越推理能力：在跨语言多领域基准测试中表现出色，涵盖英语通用推理、阅读理解、常识推理、逻辑推理中的代码生成和中英双语数学问题，以及中文知识问答和阅读理解等。
- 硬件亲和优化：针对昇腾300I Duo和800I A2平台系统优化，深度融合昇腾硬件加速架构的并行计算特性与算子级编译优化技术，实现从算法设计到系统落地的全栈创新。
盘古 Embedding
- 快慢思考融合：采用双系统认知架构，集成“快思考”与“慢思考”双推理模式。通过两阶段训练框架，第一阶段通过迭代蒸馏和MARS构建基础推理器；第二阶段赋予模型快慢思考能力，根据任务难度自动切换模式，平衡推理效率与深度。
- 高效训练策略：提出Model-aware Iterative Distillation的SFT方案，动态选择匹配当前模型能力的数据样本训练，并保留早期知识，持续提升性能。
- 行业垂域能力拓展：引入特定领域长思考数据继续训练，显著提升专业任务能力。如法律领域经训练后，在LawBench基准测试中平均准确率达54.59%。
- 自适应模式切换：根据任务复杂程度自动调整推理深度，简单问题快速输出答案，复杂问题深入分析，确保准确性。
盘古 DeepDiver
- 复杂任务处理：适用于科学助手、个性化教育及复杂行业报告调研，能完成超过10跳的复杂问答，并生成万字以上专业调研报告。
- 高效信息获取：构建大量合成交互数据，采用渐进式奖励策略强化学习训练，在开放域信息获取中表现出色，5分钟内完成复杂任务，生成高质量报告。
- 高阶能力增强：显著提升自主规划、探索、反思等高阶能力，复杂任务处理更出色。
盘古预测大模型：采用triplet transformer统一预训练架构，对不同行业数据进行三元组编码，在同一框架内高效处理和预训练，提升精度与泛化性。
盘古科学计算大模型：华为云持续拓展其与更多科学应用领域的结合。如深圳气象局升级“智霁”大模型，实现AI集合预报，减少误差。
盘古计算机视觉CV大模型：发布全新MoE架构的300亿参数视觉大模型，全面支持图像、红外、激光点云、光谱、雷达等多维泛视觉感知、分析与决策。通过跨维度生成模型，构建油气、交通、煤矿等工业场景稀缺的泛视觉故障样本库，提升识别种类与精度。
盘古多模态大模型：发布基于世界模型的多模态大模型，可用于智能驾驶、具身智能机器人训练，构建所需数字物理空间，实现持续优化迭代。

盘古大模型5.5的项目地址

Pangu Ultra MoE 技术论文：https://www.php.cn/link/97adbcd253402895e56cdeceb5f4ca29
盘古 Pro MoE 项目地址：https://www.php.cn/link/1101c92ba65fb18468e246180daafb5a
Pangu Embedding 技术论文：https://www.php.cn/link/9fbcbcb41e52efd7dbcb96e8a5c4cb63
Pangu DeepDiver 技术论文：https://www.php.cn/link/5fb04d1ce991c11c0fb16a6777163629

盘古大模型5.5的应用场景

智能驾驶：盘古多模态大模型可为智能驾驶生成大量训练数据，无需依赖高成本的路采。
具身智能机器人：盘古世界模型可为具身智能机器人的训练构建所需数字物理空间，实现持续优化迭代。
气象预报：深圳气象局基于盘古科学计算大模型升级的“智霁”大模型，实现AI集合预报，更直观反映天气系统演变可能性，减少误差。
工业场景：盘古CV大模型通过跨维度生成模型，构建油气、交通、煤矿等工业场景稀缺的泛视觉故障样本库，极大提升业务识别种类与精度。

Stable Diffusion配置要求是什么 Stable Diffusion电脑配置推荐

Cursor AI 代码编辑器：GitHub 连接与版本控制指南

Stable Diffusion怎么本地部署 Stable Diffusion本地安装教程

Stable Diffusion ControlNet怎么用 ControlNet插件安装使用详解

Stable Diffusion ControlNet怎么用 ControlNet插件安装及骨架图使用【进阶】

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6077

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

797

2023.09.14