amd联合ibm及ai新锐zyphra推出zaya1——全球首款完全基于amd硬件训练的moe基础模型,完成14t tokens预训练,整体表现媲美qwen3系列,数学与stem推理能力在未进行指令微调的情况下已接近qwen3专业版本。

训练配置
- 集群架构:IBM Cloud平台部署128节点,每节点搭载8块AMD Instinct MI300X,总计1024张加速卡;采用InfinityFabric互联技术与ROCm软件栈,实现峰值算力750PFLOPs
- 训练数据:涵盖14万亿tokens,采用课程学习策略,逐步聚焦于数学、代码与复杂推理任务;后续将发布进一步优化的后训练版本
架构亮点
- CCA注意力机制:融合卷积操作与压缩嵌入注意力头设计,显存消耗降低32%,长序列处理吞吐提升18%
- 线性路由MoE结构:细化专家粒度并引入负载均衡正则化,Top-2路由准确率提高2.3个百分点,在70%稀疏度下仍维持高效资源利用
性能表现
ZAYA1-Base(非指令调优版)在MMLU-Redux、GSM-8K、MATH、ScienceQA等多项评测中与Qwen3-Base相当;在CMATH与OCW-Math任务上表现更优,凸显其在科学与数学领域的强大潜力。Zyphra透露,指令微调及RLHF增强版本计划于2026年第一季度上线,并将开放API接口与模型权重下载。
AMD指出,本次合作成功验证了MI300X搭配ROCm在超大规模MoE模型训练中的稳定性与竞争力,未来将携手更多云服务商推广“全AMD”训练集群方案,目标在2026年实现训练超百亿参数MoE模型时,总体拥有成本(TCO)与NVIDIA方案持平。
源码地址:点击下载










